데이터 압축의 모든 것 — 'zip'은 어떻게 파일을 줄이고, 왜 압축이 곧 AI일까

압축, 매일 쓰면서도 원리는 모르는 그것

우리는 매일같이 데이터를 압축하면서 살아요. 사진을 jpg로 저장하고, 파일을 zip으로 묶고, 유튜브 영상을 스트리밍하고, 이 모든 게 압축 기술 위에서 돌아가거든요. 그런데 막상 "압축이 어떻게 파일을 작게 만드는 거야?"라고 물으면 명확하게 답하기 어렵죠. Matt Mahoney의 'Data Compression Explained'는 이 주제를 이론부터 실전 알고리즘까지 깊이 있게 정리한 고전적인 자료예요. 압축이라는 분야를 제대로 한번 정리하고 싶은 분께 딱이에요.

압축의 본질은 '모델링 + 코딩' 두 단계예요

압축의 핵심 공식을 한 문장으로 줄이면 이래요. 압축 = 모델링(예측) + 코딩(부호화). 이게 무슨 말이냐면요, 압축이란 결국 '다음에 무엇이 올지 잘 맞히는 일'이거든요. 예를 들어 영어 텍스트에서 'q' 다음에는 거의 항상 'u'가 오잖아요. 이걸 알고 있으면 'u'를 표현하는 데 거의 비트를 안 써도 돼요. 이렇게 다음 글자를 잘 예측할수록(모델링), 그걸 더 짧은 비트로 적어낼 수 있어요(코딩). 예측을 잘하는 게 절반, 그 예측을 효율적인 비트로 옮기는 게 나머지 절반이에요.

그럼 이론적으로 얼마나 줄일 수 있을까요? 여기서 등장하는 게 섀넌 엔트로피(Shannon entropy)예요. 정보 이론의 아버지 클로드 섀넌이 정의한 건데, 쉽게 말하면 '어떤 데이터가 담고 있는 진짜 정보량의 하한선'이에요. 이 한계 밑으로는 아무리 똑똑한 알고리즘이라도 손실 없이는 줄일 수 없어요. 그리고 재미있는 사실 하나, 모든 데이터를 다 줄여주는 만능 압축기는 수학적으로 불가능해요. 비둘기집 원리로 증명되는데, 어떤 입력은 줄이면 반드시 다른 어떤 입력은 늘어날 수밖에 없거든요.

우리가 쓰는 압축기들의 정체

실제 알고리즘들을 보면 큰 갈래가 있어요. 먼저 사전 방식(LZ 계열)이 있어요. zip이나 gzip이 쓰는 LZ77 같은 건데, '아까 나왔던 그 문자열, 몇 글자 앞에 있던 거 그대로'라고 가리키는 식으로 반복을 줄여요. 텍스트나 코드처럼 반복이 많은 데이터에 강해요. 코딩 단계에서는 허프만 코딩이나 더 정교한 산술 부호화(arithmetic coding)가 자주 쓰이는데, 자주 나오는 글자에는 짧은 비트를, 드문 글자에는 긴 비트를 배정해요.

조금 더 영리한 방식으로 BWT(버로우즈-휠러 변환)가 있어요. bzip2가 쓰는 건데, 데이터를 미리 비슷한 글자끼리 모이도록 재배열해서 압축이 잘 되게 만들어주는 전처리 마법이에요. 그리고 압축률의 극한을 노리는 컨텍스트 믹싱(PAQ 계열)이 있는데, 이건 Mahoney 본인이 만든 방식이기도 해요. 수십, 수백 개의 예측 모델을 동시에 돌려서 그 예측들을 똑똑하게 섞어 다음 글자를 맞히거든요. 압축률은 세계 최고 수준이지만 느린 게 흠이죠.

그리고 압축은 사실 'AI'예요

이 자료가 지금 다시 주목받는 진짜 이유가 여기 있어요. 위에서 압축의 본질이 '예측'이라고 했죠? 예측을 잘한다는 건 곧 세상을 잘 이해한다는 것, 즉 지능이라는 발상이에요. 실제로 'Hutter Prize'라는 상은 위키피디아 텍스트를 가장 작게 압축하는 사람에게 상금을 줘요. 텍스트를 잘 압축하려면 언어와 세상 지식을 잘 모델링해야 하니까, 압축 경쟁이 곧 지능 경쟁이라는 논리죠.

그리고 이게 요즘 거대 언어모델(LLM)과 정확히 맞닿아요. GPT 같은 모델이 하는 일이 본질적으로 '다음 단어 예측'이거든요. 즉 LLM은 어마어마하게 똑똑한 예측기이자, 곧 어마어마하게 강력한 압축기인 셈이에요. '압축 = 예측 = 지능'이라는 이 오래된 통찰이 LLM 시대에 와서 화려하게 부활한 거죠.

한국 개발자에게 주는 시사점

압축 알고리즘을 직접 짤 일은 많지 않아도, 이 기초를 알아두면 의외로 쓸모가 많아요. 데이터베이스나 네트워크에서 어떤 압축 옵션을 켤지 고를 때 트레이드오프(압축률 vs 속도)를 이해하게 되고, 면접에서 단골로 나오는 허프만 코딩이나 엔트로피 개념도 자신 있게 설명할 수 있어요. 무엇보다 LLM이 왜 그렇게 동작하는지를 '예측과 압축'이라는 렌즈로 이해하게 되는 게 제일 큰 수확이에요.

한 줄로 정리하면, 압축이란 결국 세상을 잘 예측하는 일이고, 그래서 가장 오래된 컴퓨터 과학 주제가 가장 뜨거운 AI 이야기와 만난다는 거예요. 여러분은 'LLM은 사실 압축기다'라는 명제, 어떻게 생각하세요?

🔗 출처: Hacker News

이 글도 읽어보세요

Hacker News Rhino 3D에 '피그마' 붙이기: 3D 모델링을 실시간으로 같이 편집하는 RhinoCollab