구글 Gemma 4, 아이폰에서 오프라인으로 돌아간다 — 온디바이스 AI 시대의 현실

스마트폰에서 LLM이 돌아간다고?

지금까지 ChatGPT나 Gemini 같은 대형 언어 모델(LLM)을 쓰려면 항상 인터넷이 필요했어요. 내가 입력한 텍스트가 서버로 올라가고, 서버에서 처리한 결과가 다시 내 폰으로 내려오는 구조였죠. 이건 속도 문제도 있지만, 프라이버시 측면에서도 꺼림칙한 부분이 있었거든요. 내 개인적인 질문이나 민감한 데이터가 외부 서버를 거쳐야 한다는 것 자체가 불편한 사람들이 많았어요.

그런데 구글이 최근 공개한 Gemma 4가 이 상황을 바꿔놓을 수 있는 신호를 보내고 있어요. Gemma 4의 경량 버전이 아이폰에서 완전히 오프라인으로, 그러니까 인터넷 연결 없이도 AI 추론(inference)을 수행할 수 있다는 게 확인된 거예요.

어떻게 가능한 건가요?

이걸 이해하려면 먼저 "온디바이스 AI"가 뭔지 알아야 해요. 온디바이스 AI란 말 그대로 AI 모델을 서버가 아닌 내 기기(device) 위에서 직접 실행하는 걸 말해요. 마치 게임을 클라우드 스트리밍으로 하는 게 아니라 내 컴퓨터에 설치해서 하는 것과 비슷한 개념이에요.

문제는 LLM이 원래 엄청나게 큰 모델이라는 거예요. GPT-4 급 모델은 수천억 개의 파라미터(parameter, 모델이 학습한 숫자값들)를 가지고 있고, 이걸 돌리려면 고성능 GPU가 여러 장 필요하죠. 스마트폰에서 돌린다는 건 상상도 못 할 일이었어요.

Gemma 4가 이걸 해결한 방법은 모델 경량화예요. 구글은 Gemma 시리즈를 처음부터 "작지만 똑똑한 모델"로 설계했거든요. 파라미터 수를 대폭 줄이면서도 성능을 최대한 유지하는 기술들을 적용했어요. 여기에 양자화(quantization)라는 기법도 핵심적인 역할을 해요. 양자화가 뭐냐면, 모델 내부의 숫자값들을 고정밀도(예: 32비트)에서 저정밀도(예: 4비트)로 압축하는 건데, 마치 고화질 사진을 적당히 압축해서 용량을 줄이는 것과 비슷해요. 약간의 품질 손실은 있지만, 메모리 사용량과 연산량이 크게 줄어들어요.

아이폰의 경우 Apple의 Neural Engine이라는 전용 AI 칩이 있고, 최신 A 시리즈나 M 시리즈 칩은 꽤 강력한 온디바이스 AI 처리 능력을 가지고 있어요. Gemma 4는 이런 하드웨어 가속을 활용해서 실용적인 속도로 텍스트를 생성할 수 있는 거예요.

업계의 온디바이스 AI 경쟁 구도

사실 온디바이스 LLM은 Gemma 4가 처음이 아니에요. 이 분야는 이미 꽤 치열한 경쟁이 벌어지고 있거든요.

Meta의 Llama 시리즈도 경량 버전을 통해 모바일 디바이스에서의 실행을 지원하고 있고, Microsoft의 Phi 시리즈는 "소형 언어 모델(SLM)"이라는 카테고리를 만들어서 적극적으로 밀고 있어요. Apple도 자체적으로 온디바이스 모델을 개발해서 Siri와 시스템 기능에 통합하고 있죠.

그런데 Gemma 4가 특별한 이유가 있어요. 구글은 Gemma를 오픈 웨이트(open weights) 모델로 공개하고 있거든요. 이게 무슨 뜻이냐면, 개발자들이 모델을 다운로드받아서 자기 앱에 자유롭게 통합할 수 있다는 거예요. Apple의 온디바이스 모델은 Apple 생태계 안에서만 쓸 수 있지만, Gemma는 어떤 앱이든 가져다 쓸 수 있죠. 이 차이가 개발자 입장에서는 꽤 커요.

또 하나 주목할 점은 이게 단순히 "돌아간다"는 수준을 넘어서, 실제로 쓸 만한 품질의 응답을 생성한다는 거예요. 물론 서버에서 돌리는 풀사이즈 모델에 비하면 성능 차이가 있지만, 간단한 질의응답, 텍스트 요약, 코드 보조 같은 작업에서는 충분히 실용적인 수준이라는 평가가 나오고 있어요.

한국 개발자에게 주는 시사점

이게 왜 중요하냐면, 앱 개발의 패러다임이 바뀔 수 있기 때문이에요.

지금까지 AI 기능을 앱에 넣으려면 OpenAI나 Google의 API를 호출해야 했어요. 그러면 API 비용이 발생하고, 서버 의존성이 생기고, 네트워크 지연도 감수해야 했죠. 그런데 온디바이스 모델이 실용적인 수준에 도달하면, API 호출 없이 앱 안에서 바로 AI 기능을 제공할 수 있게 돼요. 비용 절감은 물론이고, 오프라인에서도 동작하니까 사용성도 좋아지고, 사용자 데이터가 기기 밖으로 나가지 않으니 프라이버시 규정 준수도 훨씬 수월해져요.

한국 시장 특성상 개인정보보호법이나 데이터 국외이전 관련 규제가 까다롭잖아요. 온디바이스 AI는 이런 규제 리스크를 원천적으로 줄여주는 방법이 될 수 있어요. 금융이나 의료 같은 민감한 도메인의 앱에서 특히 매력적이죠.

모바일 개발자분들이라면 지금부터 온디바이스 AI 통합을 실험해보시는 게 좋을 것 같아요. Google의 MediaPipe나 LiteRT(구 TensorFlow Lite) 같은 프레임워크를 통해 Gemma 모델을 iOS/Android 앱에 통합하는 방법을 익혀두면, 가까운 미래에 확실히 경쟁력이 될 거예요.