Cloudflare는 자사 프록시 인프라에서 아주 드물게 발생하는 요청 처리 이상을 추적하다, 원인이 자신들의 코드가 아니라 Rust 생태계에서 가장 널리 쓰이는 HTTP 라이브러리 hyper에 있다는 사실을 밝혀냈다. 핵심 교훈은 세 가지다. 첫째, 수백만 건 중 한 번꼴로 터지는 버그는 충분한 트래픽과 정교한 관측성(observability)이 없으면 재현조차 불가능하다. Cloudflare는 방대한 로그와 분산 추적을 통해 실패 패턴을 좁혀갔다. 둘째, 성숙하고 검증된 오픈소스라도 경계 조건(connection 재사용, body 스트리밍 타이밍 등)에서는 미묘한 결함을 품을 수 있다. '믿을 만한 의존성'이라는 가정 자체를 의심하고 한 계층씩 파고드는 태도가 결국 진짜 원인에 도달하게 했다. 셋째, 문제를 우회하는 데 그치지 않고 업스트림에 수정 패치를 기여해 생태계 전체가 혜택을 보게 했다. 자신이 의존하는 인프라를 깊이 이해하고, 문제를 끝까지 추적하며, 고친 결과를 커뮤니티에 되돌려주는 엔지니어링 문화가 이 글의 진짜 메시지다.