KV 캐시를 똑똑하게 압축하는 법: 엔트로피와 저랭크 복원의 만남

긴 문맥 LLM의 숨겨진 비용, KV 캐시

LLM을 써본 분이라면 "컨텍스트 윈도우가 128K다, 1M이다" 하는 이야기를 들어보셨을 거예요. 긴 문서를 한 번에 넣고 처리할 수 있다는 건 매력적인데, 그 이면엔 KV 캐시라는 무서운 존재가 있습니다.

이게 뭐냐면, 트랜스포머 모델이 토큰을 하나씩 생성할 때마다 앞서 계산한 키(Key)와 값(Value) 벡터를 저장해두는 메모리예요. 매번 다시 계산하면 엄청 느리니까 캐싱해두는 건데, 문제는 이 캐시가 문맥 길이에 비례해서 선형으로 커진다는 점이에요. 128K 토큰짜리 요청 하나 돌리려면 모델에 따라 수십 GB의 VRAM이 필요할 수 있습니다. GPU가 아무리 좋아도 여러 요청을 동시에 처리하려면 금세 한계에 부딪혀요.

그래서 KV 캐시를 어떻게 줄일지가 요즘 LLM 추론 최적화의 가장 뜨거운 주제예요. 이번에 소개할 HAE-OLS(Hybrid Attention Entropy with OLS-based Low-Rank Summarization) 기법은 이 문제를 꽤 영리한 방식으로 풀어냅니다.

두 가지 아이디어의 결합

기존 접근 방식은 크게 두 갈래였어요. 하나는 "덜 중요한 토큰은 버리자"는 방식(H2O, StreamingLLM 같은 기법들). 어텐션 점수가 낮은 오래된 토큰의 KV를 과감히 제거해요. 빠르지만 정보 손실이 큽니다. 다른 하나는 "수치 정밀도를 낮추자"는 양자화 방식. 16비트를 4비트로 줄이면 용량은 4분의 1이 되지만 정확도가 떨어지죠.

HAE-OLS는 이 두 접근을 섞되 더 정교하게 갑니다. 핵심은 어텐션 엔트로피를 써서 어떤 토큰이 진짜 중요한지를 판별하는 거예요. 엔트로피가 뭐냐면, 어텐션이 특정 토큰에 집중되는지(낮은 엔트로피) 아니면 여러 토큰에 고루 분산되는지(높은 엔트로피)를 나타내는 지표예요. 엔트로피가 높다는 건 "이 토큰이 주변 여러 토큰과 복잡하게 얽혀 있다"는 뜻이라, 단순 점수 기반 제거 방식은 놓치는 중요 정보를 잡아낼 수 있습니다.

엔트로피가 높아서 그냥 버리기 아까운 토큰들은 저랭크 복원(Low-Rank Reconstruction)으로 압축해요. 쉽게 말하면, 큰 행렬을 더 작은 두 행렬의 곱으로 근사하는 기법입니다. 행렬 분해를 들어보셨다면 SVD와 비슷한 개념이에요. 여기선 OLS(Ordinary Least Squares, 최소제곱법)를 써서 원본 KV에 가장 가까운 저차원 표현을 찾아냅니다. 그래서 이름이 HAE-OLS인 거죠.

이게 왜 '고충실도(High-Fidelity)'인가

제목의 '고충실도'라는 말은 기법의 핵심 주장이에요. KV 캐시 압축 연구들이 흔히 겪는 문제가, 벤치마크 평균 점수는 괜찮은데 긴 문맥의 세세한 정보 검색(needle-in-a-haystack, 건초 더미에서 바늘 찾기) 같은 태스크에선 성능이 뚝 떨어진다는 거예요. 중요한 정보가 어딘가에 딱 하나 숨어 있을 때, 그걸 놓치면 안 되거든요.

HAE-OLS는 엔트로피 기반 선별과 수학적으로 최적인 저랭크 근사를 결합해서, 원본에 더 가까운 표현을 유지할 수 있다고 주장합니다. 결과적으로 일반 벤치마크뿐 아니라 까다로운 긴 문맥 태스크에서도 성능 저하가 적게 나타난다는 거예요.

업계 흐름에서 보면

KV 캐시 최적화는 지금 추론 인프라 업계의 최전선입니다. vLLM의 PagedAttention은 메모리 단편화 문제를 풀었고, 최근엔 DeepSeek의 MLA(Multi-head Latent Attention)가 모델 아키텍처 자체를 바꿔서 KV 크기를 근본적으로 줄였어요. HAE-OLS 같은 사후 압축 기법은 이미 학습된 모델을 건드리지 않고 추론 시점에만 적용할 수 있다는 장점이 있습니다. 모델을 다시 학습시킬 필요가 없다는 뜻이죠.

비슷한 최신 연구로 GEAR, KIVI, QAQ 같은 양자화 기법들이 있고, 각각 장단점이 있어요. HAE-OLS의 기여는 "엔트로피로 고른 뒤 저랭크로 누른다"는 2단계 파이프라인이 실제로 잘 동작한다는 실증적 결과입니다.

한국 개발자에게 주는 시사점

LLM을 직접 서빙하는 분들, 특히 온프레미스나 프라이빗 클라우드에서 긴 문맥 모델을 돌리는 팀에겐 매우 실용적인 이야기예요. 같은 GPU로 동시에 처리할 수 있는 요청 수를 늘리거나, 더 긴 문맥을 감당할 수 있게 해주거든요. 바로 비용 절감으로 이어집니다.

vLLM이나 TensorRT-LLM 같은 추론 엔진에 이런 기법이 점점 통합되고 있으니, 직접 구현하지 않더라도 최신 버전을 추적하면 혜택을 누릴 수 있어요. 논문이나 블로그를 읽을 때 엔트로피, 저랭크, KV 캐시 같은 키워드가 보이면 "아 이런 맥락이구나" 정도는 알아두시면 좋습니다. RAG 시스템을 만드시는 분들도 긴 컨텍스트 전략을 짤 때 도움이 될 거예요.