“우리가 직접 만들었다”던 도시의 LLM, 알고 보니 기존 모델을 섞은 것?

“직접 만들었어요”라던 AI의 정체

브라질 리우데자네이루에서 “지역에서 자체 개발한 거대 언어 모델(LLM)”이라며 새 AI 모델을 공개했어요. 외국 빅테크에 의존하지 않고 우리 손으로 만든 AI라니, 듣기만 해도 자부심이 느껴지는 이야기잖아요. 그런데 모델이 공개되자마자 전 세계 개발자들이 파일을 직접 뜯어보기 시작했고, “이거 바닥부터 만든 게 아니라 이미 나와 있는 모델들을 섞어 붙인(merge) 것 아니냐”는 의혹이 제기됐어요.

여기서 잠깐, ‘모델 머지(model merge)’가 뭐냐면요. 우리가 흔히 생각하는 AI 학습은 어마어마한 양의 데이터를 가지고 GPU를 몇 주, 몇 달씩 돌려서 모델의 ‘가중치(weight, 모델이 학습으로 얻은 수많은 숫자 값들)’를 처음부터 만들어내는 작업이에요. 돈도 시간도 천문학적으로 들죠. 반면 머지는 이미 학습이 끝난 모델 두세 개의 가중치를 수학적으로 평균 내거나 겹쳐서 새 모델을 뚝딱 만드는 기법이에요. 비유하자면 요리를 처음부터 하는 게 아니라, 이미 완성된 카레랑 짜장을 섞어 놓고 “제가 개발한 신메뉴입니다”라고 내놓는 느낌이랄까요.

어떻게 들통났을까

신기한 건, 모델을 처음부터 학습했는지 아니면 기존 걸 섞었는지가 생각보다 잘 드러난다는 거예요. 개발자들이 의혹을 제기할 때 보는 단서가 몇 가지 있거든요.

첫 번째는 ‘가중치 지문’이에요. 모델 안에 있는 숫자 값들의 분포가 특정 유명 모델과 거의 똑같으면, 우연이라고 보기 어렵죠. 사람으로 치면 지문이 일치하는 거예요. 두 번째는 ‘토크나이저(tokenizer)’인데요, 이게 뭐냐면 사람이 쓴 문장을 AI가 알아먹는 작은 조각(토큰)으로 쪼개주는 사전 같은 거예요. 이 사전이 기존 모델과 글자 하나 안 틀리고 똑같다면, 같은 뿌리에서 나왔다는 강력한 증거가 되죠. 세 번째는 ‘특유의 버릇’이에요. 모델마다 특정 질문에 답하는 말투나, 자주 하는 실수 패턴이 있는데 그게 그대로 복사된 듯 나타나면 의심할 수밖에 없어요.

머지가 나쁜 건 아니에요, 다만

오해하면 안 되는 게, 모델 머지 자체는 전혀 나쁜 기술이 아니에요. 오히려 요즘 오픈소스 AI 판에서는 아주 흔하고 정당한 기법이거든요. mergekit 같은 도구를 쓰면 누구나 여러 모델의 장점을 섞어서 성능 좋은 모델을 만들 수 있어요. 예를 들어 코딩 잘하는 모델이랑 한국어 잘하는 모델을 섞어서 둘 다 잘하는 모델을 만드는 식이죠.

문제가 되는 건 기술이 아니라 ‘투명성’이에요. “기존 오픈 모델들을 머지해서 우리 용도에 맞게 튜닝했습니다”라고 솔직하게 말했다면 아무도 뭐라 안 했을 거예요. 그런데 “순수하게 자체 개발했다”고 포장하면, 그 안에 들어간 원본 모델의 라이선스 문제도 생기고, 무엇보다 그걸 믿고 예산을 댄 사람들을 속이는 셈이 되니까요.

이게 남 일이 아닌 이유

사실 이건 한국에도 똑같이 적용되는 이야기예요. 요즘 ‘소버린 AI(Sovereign AI)’, 그러니까 ‘우리나라가 직접 보유한 자주적인 AI’라는 키워드가 엄청 뜨겁잖아요. 정부나 기업이 “국산 LLM”을 내세우는 경우가 많은데, 그중 어디까지가 진짜 처음부터 학습한 거고 어디까지가 오픈 모델을 가져다 튜닝한 건지는 사용자가 알기 어려워요.

여러분이 만약 AI 모델을 도입하거나 검증하는 입장이라면, 모델 카드(model card, 모델의 출처와 학습 방법을 적어둔 설명서)를 꼭 확인하는 습관을 들이면 좋아요. 그리고 의심스러우면 토크나이저 파일이나 가중치 분포를 직접 비교해보는 것도 어렵지 않게 할 수 있어요. 남이 만든 걸 가져다 쓰는 건 죄가 아니지만, 출처를 숨기는 건 결국 신뢰를 깎아먹는 일이니까요.