내 이름도 AI의 '기억' 속에 있을까? — LLM이 데이터를 외운다는 것의 진짜 의미

요즘 ChatGPT나 Claude 같은 대형 언어 모델(LLM)한테 '혹시 OOO라는 사람 알아?'라고 물어보면, 유명한 사람은 술술 대답하는데 평범한 사람 이름을 넣으면 있지도 않은 경력을 지어내곤 하잖아요. 이 차이가 대체 어디서 오는 걸까요? 그걸 직접 확인해볼 수 있는 재밌는 도구가 나왔어요. 이름이 'Are You in the Weights?', 우리말로 옮기면 '당신은 (모델의) 가중치 안에 들어있나요?' 정도예요. 자기 이름이나 정보를 넣어보면, 그 모델이 나라는 사람을 실제로 '외우고' 있는지 아닌지를 보여주는 서비스죠.

'weights(가중치)'가 도대체 뭐길래

여기서 weights, 우리말로 '가중치'라는 단어가 핵심이에요. 이게 뭐냐면, 신경망 모델 안에 들어있는 수십억 개, 많게는 수천억 개에 달하는 '숫자들'이거든요. 모델을 학습시킨다는 건 결국 인터넷에 있는 어마어마한 양의 글을 보여주면서 이 숫자들을 조금씩 조정해 나가는 과정이에요. 학습이 끝나면 모델은 원본 문장을 그대로 저장해 두는 게 아니라, 단어와 개념들 사이의 '관계와 패턴'을 이 숫자 뭉치 속에 녹여놓은 상태가 돼요. 그래서 모델한테 'S3가 뭐야?'라고 물으면 어딘가 저장된 문서를 꺼내오는 게 아니라, 가중치에 새겨진 패턴을 따라 그럴듯한 답을 만들어내는 거고요.

그런데 흥미로운 점이 있어요. 어떤 정보가 학습 데이터에 아주 자주, 그것도 비슷한 형태로 반복해서 등장하면 모델이 그걸 사실상 '통째로 외워버린다'는 거예요. 이걸 암기(memorization)라고 부르는데요. 유명 정치인이나 배우, 이름난 개발자처럼 위키백과에도 있고 여기저기서 언급되는 사람은 모델 입장에서 같은 사실을 수백 번 마주친 셈이라 가중치 속에 또렷하게 새겨져요. 반대로 블로그 글 몇 개가 전부인 평범한 사람은 흔적이 거의 안 남죠. 그래서 모델이 모르면서도 아는 척 지어내는 '환각(hallucination)' 현상이 생기는 거예요. 이 도구는 바로 그 경계선, 즉 '내가 모델이 외울 만큼 데이터에 많이 남았는가'를 눈으로 보여주는 셈이에요.

단순한 장난감이 아닌 이유

언뜻 보면 '내 이름 쳐보는 심심풀이' 같지만, 사실 진지한 주제로 이어져요. 첫째는 개인정보 문제예요. 만약 내 글이나 개인정보가 모델 가중치 안에 외워져 있다면, 그건 누군가 적절한 질문만 던지면 끄집어낼 수 있다는 뜻이거든요. 실제로 연구자들 사이에서는 '학습 데이터 추출 공격(training data extraction)'이라고 해서, 모델을 잘 구슬리면 외워둔 원본 텍스트, 심지어 이메일 주소나 전화번호까지 토씨 하나 안 틀리고 뱉어내게 만드는 사례가 보고돼 왔어요.

둘째는 저작권과 '잊힐 권리' 문제예요. 유럽의 GDPR에는 내 정보를 지워달라고 요구할 권리가 있는데, 데이터베이스라면 행 하나 지우면 끝이지만 가중치에 녹아든 정보는 어디 한 군데 박혀있는 게 아니라서 '콕 집어 삭제'가 거의 불가능해요. 한번 학습된 모델에서 특정 인물만 깔끔하게 잊게 만드는 건 아직도 풀리지 않은 난제고, 이걸 연구하는 분야를 머신 언러닝(machine unlearning)이라고 불러요.

한국 개발자에게 주는 시사점

실무에 바로 와닿는 교훈도 있어요. 사내 데이터로 모델을 파인튜닝(fine-tuning, 기존 모델을 우리 데이터로 추가 학습시키는 것)할 일이 점점 많아지는데요. 이때 고객 개인정보나 API 키, 내부 문서를 거르지 않고 학습에 넣으면, 그 정보가 모델 가중치에 외워져서 나중에 엉뚱한 사용자한테 새어 나갈 수 있어요. 그래서 학습 데이터에서 민감정보를 미리 가려내는(마스킹) 작업이 정말 중요해요. 또 한 가지, 왜 LLM이 마이너한 오픈소스 라이브러리나 신생 프레임워크에 대해 자꾸 거짓말을 하는지도 이걸로 설명이 돼요. 데이터에 충분히 안 남은 주제라 '가중치 밖'에 있는 거라서, 이런 영역은 RAG(검색 증강 생성)처럼 외부 문서를 직접 찾아 붙여주는 방식으로 보완해야 하고요.

결국 'AI가 무엇을 아는가'는 '무엇을 충분히 많이 봤는가'와 거의 같은 말이에요. 이 도구는 그 단순하면서도 중요한 사실을 체감하게 해줘요. 여러분 이름은 과연 가중치 안에 있을까요? 그리고 만약 내 글이 모델에 외워진다면, 그건 영광일까요 아니면 좀 무서운 일일까요?

🔗 출처: Hacker News

이 글도 읽어보세요