TECH 으로 돌아가기
TECH HACKER NEWS 오늘 2분 읽기 34 READS

행렬 직교화가 순환 모델의 기억력을 살리는 이유

Mamba·선형 어텐션 같은 순환 계열 모델은 매 시점 상태 벡터에 전이(recurrence) 행렬을 곱해 정보를 갱신한다. 문제는 이 행렬이 직교(orthogonal)가 아니면, 반복 곱셈 과정에서 상태의 크기가 점점 줄거나 폭발한다는 점이다. 결국 과거 정보가 소실되거나 그래디언트가 불안정해져 긴 문맥을 기억하지 못한다. 이 글의 핵심은 전이 행렬을 직교화하면 벡터의 노름과 기하 구조가 보존되어, 수백~수천 스텝 이전 정보까지 왜곡 없이 실려 간다는 것이다. 고윳값이 단위원 위에 놓이기 때문에 정보가 감쇠도 증폭도 없이 흐른다. 구현은 Householder 반사, Cayley 변환, 혹은 Muon 옵티마이저·DeltaNet의 델타 규칙처럼 업데이트를 직교화하는 방식으로 이뤄진다. 실제로 연관 기억(associative recall)이나 장거리 검색 과제에서 성능이 뚜렷이 개선된다. 순환 모델을 다루는 엔지니어라면, '무엇을 기억할까'보다 '기억을 어떻게 온전히 보존할까'가 아키텍처 설계의 숨은 지렛대임을 시사하는 통찰이다.

SOURCE · HACKER NEWS
원문 전체 보기 → https://ayushtambde.com/blog/matrix-orthogonalization-improv...
SHARE
처리 중...