10년된 제온으로 충분하다 - 2016년 서버에서 Gemma 모델 돌리기

H100 없어도 AI 할 수 있다는 이야기

요즘 AI 관련 기사를 보면 항상 "H100 GPU 수만 장 확보", "엔비디아 시가총액 3조 달러 돌파" 같은 어마어마한 숫자가 나와요. 그러다 보니 많은 개발자들이 "AI는 빅테크만 할 수 있는 영역"이라고 느끼는데, 이 흐름에 정면으로 도전하는 글이 하나 올라왔어요. 2016년에 출시된 인텔 제온(Xeon) CPU 한 대로 구글의 Gemma 모델을 충분히 돌릴 수 있다는 내용이에요.

글쓴이가 사용한 장비는 인텔 Xeon E5-2680 v4 계열의 10년 가까이 된 서버 CPU예요. 중고로 사면 한 알에 몇 만원 수준이고, 마더보드까지 다 합쳐도 50만원 안쪽으로 구할 수 있는 정도예요. 이 위에서 Gemma 모델(구글이 공개한 오픈소스 LLM)을 실제로 추론(inference)시켰는데, 토큰 생성 속도가 "읽기 편한 수준"으로 나왔다는 게 핵심이에요.

어떻게 가능한 거예요?

비밀은 두 가지에 있어요. 첫 번째는 양자화(quantization) 라는 기술이에요. 원래 모델 파라미터는 32비트 부동소수점(float32)으로 저장되는데, 이걸 4비트나 8비트 정수로 압축하면 메모리 사용량이 8분의 1, 4분의 1로 줄어요. 정확도는 약간 떨어지지만, 일반적인 챗봇 용도로는 거의 차이를 못 느낄 정도예요. llama.cpp나 gguf 같은 도구가 이 양자화를 표준화해서 누구나 쉽게 쓸 수 있게 만들었거든요.

두 번째 비밀은 AVX-512 명령어셋이에요. 이게 뭐냐면, 인텔 CPU에 들어있는 "한 번에 여러 숫자를 동시에 곱하고 더할 수 있는" 특수 명령어예요. LLM 추론은 본질적으로 거대한 행렬 곱셈인데, AVX-512를 잘 쓰면 일반 명령어보다 4~8배 빠르게 처리할 수 있어요. Xeon E5 v4 세대는 AVX2까지만 지원하지만, 그것만으로도 충분히 의미있는 속도가 나와요. 더 위 세대인 Xeon Scalable 시리즈로 가면 AVX-512가 들어가서 더 빨라지고요.

그리고 또 하나, 메모리 대역폭이 중요해요. LLM 추론에서 진짜 병목은 연산 속도가 아니라 "메모리에서 모델 파라미터를 읽어오는 속도"인 경우가 많아요. 서버용 Xeon은 데스크탑 CPU보다 메모리 채널이 많아서(보통 4~6채널) 이 부분에서 의외로 강점이 있어요. 7B 모델을 4비트로 양자화하면 약 4GB 정도 되는데, DDR4 메모리 대역폭으로도 충분히 초당 몇 토큰씩은 뽑아낼 수 있어요.

GPU와 비교하면 어떤가요?

물론 H100이나 RTX 4090 같은 GPU랑 비교하면 속도는 한참 느려요. GPU가 초당 100토큰 이상 뽑는다면, 이런 구형 Xeon은 초당 5~10토큰 정도 나오는 게 현실이에요. 하지만 "한 사람이 챗봇을 쓰는 용도"로는 사람이 읽는 속도와 비슷하니까 충분히 쓸 만하고요, 무엇보다 비용 차이가 어마어마해요.

RTX 4090 한 장 가격이 200만원 넘고 전력 소비도 450W에 달하는데, 중고 Xeon 서버는 50만원 안쪽이고 전력도 100W 수준이에요. 24시간 계속 돌리는 백오피스 자동화 용도라면 전기료 차이만으로도 1년이면 GPU 살 돈이 빠져요. 그리고 GPU VRAM은 24GB짜리도 비싼데, 서버 메모리는 128GB도 헐값에 구할 수 있어서 더 큰 모델도 메모리에 올릴 수 있어요.

업계의 더 큰 흐름

사실 이 글이 다루는 건 더 넓은 트렌드의 한 사례예요. 요즘 온디바이스 AI, 엣지 AI 같은 키워드가 뜨고 있는데, 핵심은 "클라우드 GPU 없이도 충분히 쓸 만한 AI를 만들 수 있다"는 거예요. 애플은 M 시리즈 칩의 통합 메모리 구조로 맥북에서 70B 모델도 돌리고 있고, 퀄컴은 스냅드래곤에 NPU를 넣어서 폰에서 LLM을 굴리려고 해요. llama.cpp, ollama, MLX 같은 프로젝트들이 "개인 컴퓨터에서 AI 돌리기"를 표준화하고 있고요.

이런 흐름이 의미하는 건 명확해요. AI 인프라의 민주화예요. 몇 년 전만 해도 "AI 모델 학습은 구글이나 OpenAI 같은 회사만"이라는 인식이 있었는데, 이제는 추론은 일반 개발자도, 학습도 작은 팀이 도전할 수 있는 영역이 되어가고 있어요.

한국 개발자에게 시사하는 점

한국 스타트업들이 사내 AI 도구를 만들 때 "GPU 서버 임대료가 너무 비싸서 못 하겠다"는 이야기를 정말 많이 들어요. AWS의 GPU 인스턴스는 시간당 몇 천 원에서 몇 만 원까지 가니까 부담스러운 게 사실이거든요. 그런데 사내 코드 리뷰 봇이나 문서 요약 도구처럼 실시간성이 크게 중요하지 않은 용도라면, 중고 서버 한 대에 양자화 모델 올려서 충분히 운영할 수 있어요.

특히 보안에 민감한 회사들 - 금융권, 법무, 의료 등 - 은 데이터를 외부 API로 보낼 수 없잖아요. 이런 곳에서 사내 LLM 서버를 구축할 때 굳이 H100을 살 필요가 없다는 게 이 글의 가장 실용적인 메시지예요. 개인 개발자 입장에서도 집에 있는 오래된 PC나 NAS에 모델 올려서 개인용 AI 비서로 쓸 수 있고요.

마무리

결국 핵심 메시지는 이거예요. AI는 더 이상 GPU 군비 경쟁만의 영역이 아니다. 똑똑한 최적화와 오픈소스 도구의 발전 덕분에, 10년 된 하드웨어로도 의미있는 AI 서비스를 만들 수 있는 시대가 왔어요. 비용 제약 때문에 AI 프로젝트를 미뤄왔다면, 이 사례가 좋은 출발점이 될 수 있을 거예요.

여러분이라면 H100 한 대 빌릴 돈으로 중고 Xeon 서버 10대를 사서 분산 추론을 돌리는 쪽과, 그냥 클라우드 GPU를 쓰는 쪽 중에 어느 쪽을 선택하시겠어요? 그리고 그 선택의 기준은 뭐가 될 것 같으세요?

🔗 출처: Hacker News

이 글도 읽어보세요