처리중입니다. 잠시만 기다려주세요.
TTJ 코딩클래스
정규반 단과 자료실 테크 뉴스 코딩 퀴즈
테크 뉴스
Hacker News 2026.07.01 48

행렬 직교화가 순환 모델의 기억력을 살리는 이유

Hacker News 원문 보기

Mamba·선형 어텐션 같은 순환 계열 모델은 매 시점 상태 벡터에 전이(recurrence) 행렬을 곱해 정보를 갱신한다. 문제는 이 행렬이 직교(orthogonal)가 아니면, 반복 곱셈 과정에서 상태의 크기가 점점 줄거나 폭발한다는 점이다. 결국 과거 정보가 소실되거나 그래디언트가 불안정해져 긴 문맥을 기억하지 못한다. 이 글의 핵심은 전이 행렬을 직교화하면 벡터의 노름과 기하 구조가 보존되어, 수백~수천 스텝 이전 정보까지 왜곡 없이 실려 간다는 것이다. 고윳값이 단위원 위에 놓이기 때문에 정보가 감쇠도 증폭도 없이 흐른다. 구현은 Householder 반사, Cayley 변환, 혹은 Muon 옵티마이저·DeltaNet의 델타 규칙처럼 업데이트를 직교화하는 방식으로 이뤄진다. 실제로 연관 기억(associative recall)이나 장거리 검색 과제에서 성능이 뚜렷이 개선된다. 순환 모델을 다루는 엔지니어라면, '무엇을 기억할까'보다 '기억을 어떻게 온전히 보존할까'가 아키텍처 설계의 숨은 지렛대임을 시사하는 통찰이다.

이 뉴스가 유용했나요?

TTJ 코딩클래스 정규반

월급 외 수입,
코딩으로 만들 수 있습니다

17가지 수익 모델을 직접 실습하고, 1,300만원 상당의 자동화 도구와 소스코드를 받아가세요.

144+실전 강의
17개수익 모델
4.9수강생 평점
정규반 자세히 보기

"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"

실제 수강생 후기
  • 비전공자도 6개월이면 첫 수익
  • 20년 경력 개발자 직강
  • 자동화 프로그램 + 소스코드 제공

매일 AI·개발 뉴스를 받아보세요

주요 테크 뉴스를 매일 아침 이메일로 전해드립니다.

스팸 없이, 언제든 구독 취소 가능합니다.