AI가 돌려주는 '암호화된 추론 덩어리', 그 안엔 대체 뭐가 들어 있을까

답은 보이는데, '생각'은 안 보인다

요즘 o1, o3 같은 '추론 모델(reasoning model)'들 많이 쓰시죠. 답을 바로 내놓지 않고 한참 '생각'을 한 뒤에 더 똑똑한 답을 주는 모델들이요. 그런데 이상한 점이 하나 있어요. 우리는 그 모델이 답을 만들기 위해 거친 사고 과정(chain-of-thought, 줄여서 CoT) 토큰값까지 요금을 내는데, 정작 그 내용은 못 봐요. 응답에 딸려 오는 건 사람이 읽을 수 없는 암호화된 덩어리(encrypted blob) 거든요. 암호학자 매튜 그린(Matthew Green)이 바로 이 '암호화된 추론 덩어리'를 가지고 이리저리 뜯어본 글이 흥미로워서 정리해 봤어요.

그 덩어리가 왜 거기 있냐면

먼저 배경부터요. AI를 부르는 API는 보통 상태가 없어요(stateless). 이게 뭐냐면, 서버가 직전 대화를 기억하지 않는다는 뜻이에요. 그래서 우리가 여러 번 주고받을 때마다 이전 내용을 통째로 다시 보내주는 거죠. 그런데 추론 모델은 한 번 '생각'한 결과를 다음 단계에서도 이어 쓰고 싶어해요. 매번 처음부터 다시 생각하면 비싸고 느리니까요.

그래서 제공사는 이 추론 상태를 암호화해서 사용자에게 들려 보내요. 다음 요청 때 그 덩어리를 다시 서버로 보내면, 서버만 가진 열쇠로 풀어서 '아, 아까 여기까지 생각했었지' 하고 이어가는 거예요. 사용자는 그 짐을 들고 다니지만(그리고 보관 비용 격인 토큰 요금도 내지만) 안을 못 열어보는, 좀 얄궂은 구조죠.

왜 굳이 암호화까지 할까요? 두 가지 이유가 섞여 있어요. 하나는 영업 비밀 보호예요. 날것의 사고 과정을 다 공개하면 경쟁사가 그걸 긁어모아 자기 모델을 학습시킬 수 있거든요(이른바 distillation). 또 하나는 안전성이에요. 모델이 속으로 떠올리는 거친 중간 생각을 그대로 노출하면 오해나 악용 소지가 있다고 보는 거죠.

암호학자의 눈에 걸린 지점

그린이 짚는 재미있는 포인트는 이거예요. '우리는 우리가 비용을 지불하는 무언가를, 검증할 수도 볼 수도 없다' 는 신뢰 문제죠. 안에 정말 진짜 추론이 들어 있는지, 토큰 개수만큼 정직하게 청구되는지, 혹시 다른 정보가 섞여 있진 않은지 우리는 알 길이 없어요. 암호화 덩어리는 우리에겐 그냥 불투명한 검은 상자니까요.

그래서 글은 '이걸 이리저리 만져보면(fooling around) 뭘 알아낼 수 있을까'를 탐구해요. 덩어리의 크기 변화로 내부 토큰 양을 추정한다든지, 같은 입력에 대해 결과가 어떻게 달라지는지를 관찰하는 식이죠. 이상적으로는 '안 보여줘도 정직함을 수학적으로 증명' 하는 방향(영지식 증명 같은 암호 기법)이 떠오르지만, 현실의 구현은 그냥 '서버 키로 암호화'에 가까워서 결국 제공사를 믿는 수밖에 없다는 게 핵심 메시지예요.

업계 맥락

이건 '클로즈드 모델 vs 오픈 모델' 논쟁과도 연결돼요. 오픈 웨이트 모델(가중치가 공개된 모델)을 직접 돌리면 사고 과정이 전부 내 손안에 있어서 이런 불투명성 문제가 없거든요. 반대로 클로즈드 API는 성능은 좋지만 '블랙박스를 믿어야 하는' 구조죠. 추론 모델의 사고 과정 암호화는, 성능과 투명성 사이에서 업계가 점점 더 '비공개' 쪽으로 기울고 있다는 한 단면이에요.

한국 개발자에게 주는 시사점

실무에선 이걸 꼭 기억하세요. 추론 모델 API를 쓸 때 '안 보이는 추론 토큰'이 요금과 응답 시간에 큰 영향을 준다는 점이에요. 비용 산정할 때 출력 글자 수만 보면 안 되고, 숨은 추론 토큰까지 계산에 넣어야 예산이 안 터져요. 또 멀티턴(여러 번 주고받는) 추론을 이어갈 땐 그 암호화 덩어리를 다음 요청에 다시 실어 보내야 캐싱 효과를 누리니, SDK가 이걸 어떻게 다루는지 확인해 두면 좋아요. 그리고 민감 정보를 다루는 서비스라면, '내가 통제할 수 없는 추론 상태가 외부 서버를 오간다'는 점이 컴플라이언스에서 걸릴 수 있으니, 이런 경우엔 오픈 모델 자체 호스팅도 진지하게 비교해 볼 만해요.