Hacker News 2026.06.26 35

신경망은 왜 파라미터가 많을수록 잘될까? '복권 가설' vs '탈출 차원'

상식을 거스르는 딥러닝의 미스터리

머신러닝을 조금 배운 사람이라면 "모델이 너무 복잡하면 과적합(overfitting)된다"는 말을 귀에 못이 박이게 들었을 거예요. 과적합이 뭐냐면, 모델이 학습 데이터를 그냥 통째로 외워버려서, 정작 처음 보는 새 데이터에서는 헛소리를 하는 현상이에요. 그래서 전통적으로는 "파라미터(모델이 학습으로 조절하는 숫자 손잡이들) 수는 데이터에 비해 적당해야 한다"고 가르쳤어요.

그런데 현실의 딥러닝은 이 상식을 정면으로 거스르고 있어요. 요즘 신경망은 학습 데이터 개수보다 파라미터가 수십, 수백 배 많은데도 과적합은커녕 오히려 더 잘 일반화돼요. 이걸 '과매개변수화(overparameterization)의 역설'이라고 불러요. EPFL(스위스 로잔 연방공대) 연구진이 바로 이 수수께끼, "왜 파라미터가 넘쳐나는데도 잘 되는가?"를 파고든 거예요.

첫 번째 설명: '복권 가설'

유력한 설명 중 하나가 복권 티켓 가설(Lottery Ticket Hypothesis)이에요. 이게 뭐냐면요, 거대한 신경망 안에는 사실 "이미 당첨된 복권" 같은 작은 부분망(subnetwork)이 숨어 있다는 아이디어예요.

비유하자면, 복권을 딱 한 장만 사면 당첨 확률이 낮지만, 수백만 장을 한꺼번에 사면 그중에 당첨 티켓이 들어 있을 가능성이 확 올라가잖아요. 신경망도 파라미터를 잔뜩 깔아두면, 초기 랜덤 상태에서 우연히 '좋은 초기값을 가진 작은 회로'가 어딘가 존재하게 되고, 학습은 사실상 그 당첨 티켓을 찾아 키우는 과정이라는 거죠. 그래서 학습이 끝난 뒤 쓸모없는 가지를 쳐내도(가지치기, pruning) 성능이 거의 유지되는 거예요. 핵심 회로는 작았던 거니까요.

두 번째 설명: '탈출 차원'

그런데 이 논문이 던지는 흥미로운 대안이 탈출 차원(escape dimensions)이라는 관점이에요. 이건 '당첨 티켓이 있어서'가 아니라 '학습 과정이 쉬워져서' 잘 된다는 설명이에요.

조금 풀어볼게요. 신경망 학습은 거대한 산악 지형에서 가장 낮은 골짜기를 찾아 내려가는 과정이라고 흔히 비유해요. 이때 가장 골치 아픈 게 '안장점(saddle point)'이나 나쁜 국소 최솟값이에요. 사방이 막힌 분지에 갇혀서 더 못 내려가는 상황이죠. 그런데 차원을 늘리면, 즉 파라미터를 더 추가하면, 갇혀 있던 그 지점에서 빠져나갈 수 있는 새로운 탈출 방향이 생긴다는 거예요. 2차원 평면에서는 막다른 골목이어도, 3차원이 되면 위로 넘어갈 길이 보이는 것처럼요. 즉, 과매개변수화의 진짜 효력은 '숨은 당첨 회로'가 아니라 최적화 지형을 매끄럽게 펴서 빠져나갈 출구를 열어주는 것이라는 해석이죠.

이 두 가설은 미묘하게 달라요. 복권 가설은 '좋은 해가 처음부터 어딘가 박혀 있다'에 방점이 있고, 탈출 차원은 '여분의 차원이 학습 자체를 가능하게 한다'에 방점이 있어요. 같은 현상을 설명하지만, 함의가 다르거든요.

업계 맥락에서 보면

이 논쟁은 단순 이론 놀음이 아니에요. 만약 복권 가설이 맞다면, "거대 모델을 학습한 뒤 작은 당첨 회로만 추출하면 된다"는 모델 경량화 전략이 정당해져요. 실제로 가지치기·증류(distillation) 같은 기법이 이 방향이고요. 반대로 탈출 차원이 핵심이라면, 학습 시점에는 큰 모델이 반드시 필요하다는 뜻이 돼요. 작게 시작하면 애초에 골짜기를 못 빠져나가니까요. 요즘 거대언어모델(LLM)을 일단 크게 학습한 뒤 양자화·경량화하는 실무 흐름과도 정확히 맞닿아 있어요.

한국 개발자에게 주는 시사점

당장 코드에 붙여 쓰는 기법은 아니에요. 하지만 "왜 우리 모델은 키웠더니 더 잘 되지?"라는 현장의 경험을 이론적으로 이해하는 틀을 줘요. 모델 사이즈를 정할 때, 추론(서비스 배포)용으로는 작게 줄여도 되지만 학습할 때는 충분히 크게 가야 한다는 직관의 근거가 되거든요. 리소스가 빠듯한 한국 스타트업·연구실 환경에서 '어디에 GPU를 쓸 것인가'를 결정할 때 실질적인 판단 재료가 돼요.

마무리

한 줄로 정리하면, 딥러닝이 파라미터를 펑펑 써도 잘 되는 이유는 아직 완전히 풀리지 않은 열린 문제이고, '숨은 당첨 회로' 가설과 '탈출 차원' 가설이 경쟁 중이라는 거예요. 여러분의 경험상, 모델을 키웠을 때 성능이 좋아진 건 '좋은 부분망을 찾아서'였을까요, 아니면 '학습이 더 쉬워져서'였을까요?

🔗 출처: Hacker News

이 글도 읽어보세요