Cloudflare가 내놓은 AI 플랫폼, '에이전트'를 위한 추론 레이어라는 게 뭘까

무슨 일이 있었냐면요

Cloudflare가 최근에 'AI Platform'이라는 걸 발표했어요. 그런데 이게 단순히 "우리도 AI 서비스 시작했어요" 수준이 아니라, AI 에이전트(Agent)가 돌아가는 데 필요한 인프라를 한 곳에 모아놓은 플랫폼이라는 점이 포인트거든요.

요즘 AI 이야기를 하면 그냥 챗봇 수준을 넘어서, 사용자 대신 검색하고, 예약하고, 코드를 짜고, 심지어 다른 API를 호출해서 뭔가를 '해주는' 에이전트가 주목받고 있잖아요. 이런 에이전트는 기존 웹앱이랑 요구사항이 많이 달라요. 요청이 몇 초에서 몇 분씩 지속되기도 하고, 중간에 여러 번 모델을 호출하고, 상태를 저장하고, 도구(tool)를 불러야 하거든요. Cloudflare는 이 특성에 맞게 엣지(Edge) 네트워크 위에서 추론과 오케스트레이션을 함께 돌릴 수 있는 스택을 만들었다고 주장하는 거예요.

핵심 구성요소를 하나씩 풀어볼게요

가장 중심에는 Workers AI가 있어요. 이게 뭐냐면, Cloudflare의 엣지 서버(전 세계 수백 개 도시에 퍼져 있는 서버들)에서 LLM 추론을 돌려주는 서비스예요. Llama, Mistral 같은 오픈소스 모델은 기본 내장이고, 필요하면 OpenAI나 Anthropic 모델로도 바로 라우팅할 수 있어요. 사용자랑 가까운 곳에서 추론이 돌기 때문에 지연시간(latency)이 확 줄어드는 효과가 있어요.

그 위에 AI Gateway라는 레이어가 있는데요, 이건 일종의 '관제탑' 같은 역할이에요. 여러 모델 제공자(OpenAI, Anthropic, Google 등)로 가는 요청을 하나의 엔드포인트로 받아서, 캐싱하고, 재시도하고, 비용을 추적하고, 로그를 남겨줘요. 실무에서 모델을 운영해본 분이라면 알겠지만, 이 부분을 직접 만들면 생각보다 까다롭거든요. 이걸 매니지드 서비스로 쓸 수 있다는 게 매력 포인트예요.

에이전트의 '기억'과 '흐름'을 담당하는 게 Durable Objects와 Workflows예요. Durable Objects는 '특정 사용자나 세션에 딱 붙어 있는 작은 서버' 같은 개념인데, 에이전트가 대화 맥락을 유지하거나 긴 작업을 진행할 때 상태를 안정적으로 들고 있게 해줘요. Workflows는 여러 단계로 이어지는 작업을 안정적으로 돌려주는 도구인데, 중간에 실패해도 다시 이어서 실행할 수 있게 해주는 게 특징이에요. 에이전트가 "10분짜리 리서치 작업"을 하는 동안 서버가 재시작돼도 문제없이 이어진다는 얘기죠.

마지막으로 Vectorize(벡터 DB), R2(오브젝트 스토리지), D1(SQLite 기반 DB) 같은 데이터 저장소들이 같은 플랫폼 안에 다 들어 있어요. 즉, 임베딩 검색부터 파일 저장, 관계형 데이터까지 전부 하나의 콘솔에서 관리할 수 있는 거예요.

업계 흐름에서 어떤 위치일까

AWS Bedrock, Google Vertex AI, Azure AI Foundry 같은 하이퍼스케일러들이 이미 비슷한 '통합 AI 플랫폼'을 내놨잖아요. 거기에 Vercel의 AI SDK, Replicate, Modal 같은 신생 플랫폼들도 경쟁하고 있고요. Cloudflare의 차별점은 엣지 네트워크라는 자체 자산이에요. 전 세계 어디서든 50ms 이내에 닿을 수 있는 인프라 위에 추론을 얹으니까, 전 세계 사용자를 대상으로 하는 에이전트 서비스에는 구조적으로 유리할 수 있어요.

또 하나 주목할 부분은 가격 구조예요. Cloudflare는 전통적으로 '이그레스(egress, 아웃바운드 트래픽) 비용 없음'을 내세워왔는데, AI 플랫폼에도 이 기조가 이어져요. AWS에서 S3에 저장된 데이터를 외부로 빼낼 때 내는 비용이 만만치 않거든요. 에이전트가 대량의 데이터를 오가며 처리한다면, 이 이그레스 비용 차이가 실제 월 청구서에서 꽤 큰 격차로 드러날 수 있어요.

다만 현실적인 한계도 있어요. 엣지 환경은 GPU 자원이 하이퍼스케일러보다 제한적일 수밖에 없고, 초대형 모델(예: GPT-4o 풀 사이즈급)을 엣지에서 직접 돌리기는 쉽지 않아요. 그래서 Workers AI는 중소형 오픈소스 모델에 강점이 있고, 대형 모델은 게이트웨이를 통한 프록시 방식이 주력이에요.

한국 개발자에게 어떤 의미일까

한국에서 AI 에이전트 서비스를 만들려는 분이라면, 두 가지 상황에서 특히 검토해볼 만해요. 첫 번째는 글로벌 사용자를 대상으로 하는 서비스. 서울 리전 한 곳에서만 돌리면 미국/유럽 사용자가 응답을 기다리는 시간이 길어지는데, Cloudflare의 엣지 분산 구조는 이걸 자연스럽게 해결해줘요. 두 번째는 빠르게 MVP를 만들어야 하는 경우. Workers + Durable Objects + Vectorize 조합으로, Kubernetes나 별도 메시지 큐 없이도 상태 있는 에이전트를 짜맞출 수 있거든요.

반면 국내 사용자 위주 서비스이고, 이미 AWS 서울 리전이나 네이버 클라우드에 깊게 얹혀 있다면 굳이 옮길 이유는 크지 않아요. 이럴 땐 AI Gateway만 도입해서 멀티 프로바이더 관리 용도로 부분적으로 써보는 것도 나쁘지 않은 선택이에요.

마무리

요약하면, Cloudflare의 AI Platform은 "에이전트라는 새 워크로드의 특성(장시간 실행, 상태 유지, 멀티 호출)을 엣지 인프라 위에 맞춰 설계한 통합 스택"이에요. 모델 자체의 경쟁이 아니라 '모델을 잘 돌리는 플랫폼' 경쟁이 본격화되는 신호이기도 하고요.

여러분은 AI 에이전트를 운영한다면 엣지 기반 플랫폼과 기존 하이퍼스케일러 중 어느 쪽을 고르시겠어요? 지연시간과 비용, 생태계 중 뭐가 가장 결정적인 기준이 될까요?

🔗 출처: Hacker News

이 글도 읽어보세요