AI는 데이터만의 문제가 아니다, '포스트 트레이닝'이 진짜 본체다

AI를 이해하려면 '데이터'에서 한 발 더 들어가야 해요

요즘 AI 윤리나 저작권 이야기를 들어보면 대부분 "AI는 데이터의 산물이다"라는 전제에서 출발해요. 어떤 데이터를 학습했느냐, 그 데이터가 정당하게 수집됐느냐, 편향은 없느냐 같은 질문들이죠. 그런데 Cybernetic Forests라는 뉴스레터에서 최근 이 통념에 정면으로 맞서는 글을 냈어요. 제목이 "It's Not Just Data. It's Post-Training" 인데, 한국어로 풀면 "단순히 데이터의 문제가 아니다, 핵심은 포스트 트레이닝이다"라는 뜻이에요.

이 글의 요지는 이래요. 우리가 ChatGPT나 Claude 같은 모델을 쓸 때 느끼는 그 '성격'과 '답변 방식'은 사실 학습 데이터에서 직접 오는 게 아니라, 포스트 트레이닝이라는 단계에서 만들어진다는 거예요. 포스트 트레이닝이 뭐냐면, 거대한 텍스트 뭉치로 사전 학습(pre-training)을 끝낸 모델을 사람의 피드백으로 다듬는 과정이에요. 우리가 흔히 듣는 RLHF(인간 피드백을 통한 강화학습), DPO, RLAIF 같은 기법들이 다 여기에 속해요.

포스트 트레이닝이 만들어내는 것

사전 학습이 끝난 모델은 사실 좀 거칠어요. 그냥 인터넷에서 본 모든 글의 다음 단어를 예측하는 기계라서, 질문을 던지면 "음, 이런 질문에 대한 답변은 보통 이렇게 시작하더라" 정도의 패턴 매칭만 해요. 우리가 보는 친절하고 매끄러운 응답은 그 위에 입혀진 옷 같은 거예요.

이 옷을 입히는 게 포스트 트레이닝이에요. 사람들이 "이 답변이 더 좋다", "이 답변은 위험하다", "이건 거절해야 한다" 같은 라벨을 수십만, 수백만 건씩 달아서 모델에게 학습시키는 과정이거든요. 이 과정에서 모델의 태도, 톤, 회피하는 주제, 강조하는 가치관 같은 게 모두 결정돼요.

그래서 같은 베이스 모델에서 시작해도 OpenAI의 ChatGPT, Anthropic의 Claude, Google의 Gemini가 서로 다른 인격처럼 느껴지는 거예요. 사전 학습 데이터는 사실 거의 비슷해요. 인터넷 전체, Common Crawl, Wikipedia, 책 같은 거니까요. 차이를 만드는 건 그 위에 입힌 포스트 트레이닝의 철학이에요. 어떤 질문을 거절할지, 어떤 톤으로 말할지, 어떤 가치를 우선할지를 누가 어떻게 정하느냐의 문제죠.

왜 이게 중요한 이야기일까

AI 윤리나 거버넌스 논의가 대부분 "학습 데이터가 어디서 왔는가"에 집중되어 있어요. 저작권 소송도 대부분 학습 데이터에 대한 거고요. New York Times가 OpenAI를 고소한 것도, 화가들이 Midjourney를 고소한 것도 모두 "우리 데이터 동의 없이 썼다"는 주장이에요.

물론 이것도 중요한 문제예요. 하지만 글의 저자는 이렇게 지적해요. 모델의 실제 행동을 결정하는 더 큰 변수는 포스트 트레이닝이라고요. 그런데 포스트 트레이닝 단계에서 어떤 가이드라인을 썼는지, 누가 라벨링을 했는지, 어떤 답변을 좋다고 정했는지는 거의 모든 회사가 공개하지 않아요. 학습 데이터는 그래도 일부 추적이 가능한데, 포스트 트레이닝의 '취향'은 완전히 블랙박스인 거죠.

그래서 모델이 정치적으로 편향되어 있다고 느낄 때, 그 편향이 학습 데이터에서 온 건지 포스트 트레이닝의 가이드라인에서 온 건지 구분하기가 어려워요. 후자라면 그건 회사의 정책적 선택이지 데이터의 문제가 아니거든요. 이걸 데이터 문제로만 보면, 진짜 책임 주체를 놓치는 결과가 돼요.

또 흥미로운 건 포스트 트레이닝이 모델의 '솔직함'에도 영향을 준다는 점이에요. 사전 학습 모델은 종종 자기가 모르는 걸 거짓말로 메꾸는 경향(hallucination)이 강한데, 포스트 트레이닝으로 "모를 땐 모른다고 답해"라고 가르치면 줄어들어요. 반대로 "항상 도움이 되라"고 강하게 가르치면 오히려 거짓말이 늘어날 수도 있고요. 이런 미세한 조정이 모델의 신뢰성을 통째로 바꿔놓는 거예요.

업계 흐름에서 보면

Anthropic이 발표한 'Constitutional AI', OpenAI의 'Model Spec', Meta의 Llama 모델 카드 같은 문서들이 사실은 포스트 트레이닝의 가치 판단을 일부 투명화하려는 시도예요. 어떤 원칙으로 모델을 다듬었는지 외부에 공개하는 거죠. 하지만 여전히 실제 데이터셋이나 라벨러의 가이드라인은 대부분 비공개예요.

오픈소스 진영에서는 반대로 포스트 트레이닝의 투명성을 무기 삼고 있어요. Hugging Face의 SmolLM, Allen AI의 Tulu, OLMo 같은 모델들은 포스트 트레이닝에 사용된 데이터셋과 절차를 모두 공개해요. 이게 단순한 마케팅이 아니라, 모델의 행동을 검증하고 재현할 수 있게 만드는 핵심이라는 인식이 퍼지고 있어요.

또 최근 DeepSeek이나 Qwen 같은 중국 모델들이 갑자기 강력해진 것도 사실 포스트 트레이닝 노하우가 빠르게 따라잡혔기 때문이라는 분석이 있어요. 사전 학습 인프라는 GPU만 있으면 어느 정도 따라갈 수 있는데, 포스트 트레이닝은 데이터와 평가 기준의 미묘한 차이가 결과를 크게 좌우하거든요.

한국 개발자에게 주는 시사점

AI 모델을 가져다 쓰는 분이라면, 모델을 선택할 때 "어떤 데이터로 학습했나"뿐 아니라 "어떻게 다듬어졌나"를 함께 봐야 해요. 같은 베이스 모델을 쓰더라도 회사가 어떤 가이드라인으로 포스트 트레이닝을 했느냐에 따라 우리 서비스에서 보여지는 모습이 완전히 달라지거든요. 특히 한국어 응답 품질이나 거절 패턴 같은 건 포스트 트레이닝 단계의 한국어 데이터 비중에 크게 좌우돼요.

자체 모델을 파인튜닝하는 회사라면 더더욱 이 글의 메시지를 새겨들을 만해요. 베이스 모델을 잘 골랐다고 끝이 아니고, 어떤 instruction 데이터를 모으고, 어떻게 라벨링하고, 어떤 평가 기준을 세우느냐가 최종 모델의 성격을 결정해요. LoRA로 파인튜닝할 때 학습률보다 데이터 큐레이션이 100배 중요하다는 말이 괜히 나오는 게 아니에요.

그리고 AI 거버넌스나 정책 쪽에 관심 있는 분이라면, 데이터 출처 문제만 보지 말고 포스트 트레이닝의 투명성도 함께 요구해야 한다는 관점을 가져보세요. 진짜 모델의 가치관을 만드는 건 그쪽이거든요.