JEPA의 비밀은 1936년 통계학이었다: CCA 이야기

얀 르쿤이 밀고 있는 JEPA(Joint Embedding Predictive Architecture)는 픽셀이 아니라 '임베딩 공간'에서 미래를 예측하는 자기지도학습 구조입니다. 그런데 이 아이디어의 뿌리는 사실 1936년 해럴드 호텔링이 제안한 정준상관분석(Canonical Correlation Analysis, CCA)에 닿아 있습니다. CCA는 두 데이터 집합에서 서로 가장 강하게 상관되는 선형 투영을 찾는 고전 기법인데, JEPA가 두 뷰의 표현을 맞추려는 목표와 본질적으로 같습니다. 임베딩 예측의 최대 난점은 인코더가 모든 입력을 같은 상수로 뭉개버리는 '표현 붕괴(representation collapse)'입니다. CCA는 정준변수들이 서로 무상관이고 단위 분산을 갖도록 강제하는 화이트닝 제약을 통해 이 붕괴를 수학적으로 자연스럽게 막아냅니다. VICReg나 Barlow Twins 같은 최신 기법이 분산·공분산 제약을 거는 것도 결국 CCA의 비선형·딥러닝판인 셈이죠. 화려한 신기술 뒤에 90년 묵은 통계 이론이 숨어 있다는 점, 기본기의 가치를 다시 일깨워주는 통찰입니다.

이 글도 읽어보세요

Hacker News 면접에서 깨진 뒤 알게 된 쿠버네티스 — 명령어만 외우면 반드시 걸리는 질문들