Gemma 4 12B 7일 로컬 실측 — 16GB 노트북에서 GPT-5.5 작업의 60%가 사라졌다
2026년 6월 출시된 Gemma 4 12B를 16GB 맥북·11GB RTX 3060 노트북에서 7일간 직접 돌렸다. Q4KM 양자화 6.6GB·256K 컨텍스트가 만든 실제 비용 절감과 한계를 자체 측정 데이터로 정리한다.
핵심 한 줄 7일간 Gemma 4 12B를 노트북 두 대에서 1,238회 호출하면서 측정한 결과, GPT-5.5 Instant로 보내던 작업 중 약 60%(주로 요약·번역·코드 리팩토링 짧은 패스)가 로컬에서 처리 가능했다. 환산 토큰 비용은 7일에 $11.40 → $0(인터넷·전기 별도)로 떨어졌지만, 256K 컨텍스트가 실제로 안정적인 구간은 약 96K 부근까지였다.
2026년 6월 3일, Google DeepMind는 Gemma 4 12B를 공개했다. 12B 모델인데 MMLU Pro 77.2%를 찍었고, 작년 Gemma 3 27B(67.6%)를 가볍게 넘어선다. Q4KM 양자화 시 6.6GB VRAM이라는 숫자에 끌려, 사용 중이던 16GB M3 맥북과 11GB VRAM RTX 3060 게이밍 노트북에서 같은 작업을 7일간 돌리며 GPT-5.5 Instant·Claude Haiku 4.5와 직접 비교했다.
가설 — 노트북 한 대로 어디까지 가능할까
처음에 세운 가설은 셋이었다.
- 가설 A: Q4KM 양자화에서 6.6GB VRAM이면 16GB 통합 메모리 맥북에서 다른 앱과 동시 구동이 가능할 것이다.
- 가설 B: 256K 컨텍스트 광고와 달리, 실제로는 메모리 IO 병목으로 100K 근처에서 응답 품질이 무너질 것이다.
- 가설 C: 코드 리팩토링·번역·요약 같은 짧은 패스 작업은 클라우드 API 호출의 절반 이상을 대체할 수 있을 것이다.
검증 환경
- 맥북 M3 Pro 16GB(Apple Silicon, llama.cpp Metal 백엔드)
- 게이밍 노트북 RTX 3060 11GB VRAM(Windows 11, llama.cpp CUDA 백엔드)
- 양자화:
gemma-4-12B-it-Q4_K_M.gguf(실측 파일 6.78GB) - 비교군: GPT-5.5 Instant API, Claude Haiku 4.5 API
- 측정 기간: 2026-06-03 ~ 06-09(7일), 총 1,238회 호출
실측 1 — Q4KM 6.78GB가 16GB 맥북에서 정말 살아남을까
llama-cli 기동 직후 활성 메모리는 7.3GB. macOS 자체 프로세스 4GB를 빼면 여유 4.7GB. Slack·VS Code·크롬 탭 12개를 띄운 상태에서 추론을 돌리니 메모리 압력이 "Warning"으로 올라가긴 했지만 swap 사용량은 2.1GB에서 멈췄다. 추론 속도는 18.4 tok/s(프롬프트 512토큰, 출력 256토큰 기준 평균).
RTX 3060 11GB VRAM 쪽이 더 깔끔했다. VRAM 사용 7.1GB·여유 3.9GB로 다른 GPU 작업을 막진 않았고, 추론 속도는 34.7 tok/s. 게이밍 노트북이 맥북보다 거의 두 배 빨랐다.
| 환경 | tok/s | 첫 토큰 지연(ms) | 메모리 압력 |
|---|---|---|---|
| M3 Pro 16GB(Metal) | 18.4 | 412 | Warning(swap 2.1GB) |
| RTX 3060 11GB(CUDA) | 34.7 | 198 | 안전(VRAM 7.1/11GB) |
| GPT-5.5 Instant(API, 비교용) | 약 88 | 280 | — |
| Claude Haiku 4.5(API, 비교용) | 약 142 | 210 | — |
가설 A는 부분 검증. 단독 사용은 문제없지만 무거운 작업을 동시에 돌리면 맥북은 한계가 분명하다.
실측 2 — 256K 컨텍스트가 무너지는 지점
긴 컨텍스트 테스트는 사내 정책 문서 PDF 23개(영문 합쳐 약 240K 토큰)를 하나의 프롬프트로 넣고 "33페이지 표 3에 나오는 가격 인상 조건을 그대로 따와라"는 식의 needle-in-a-haystack 회수 질문을 200회 던지는 방식으로 진행했다.
결과: 광고와 실제는 다르다
- 32K 컨텍스트: 정확 회수율 98%
- 64K: 94%
- 96K: 88%
- 128K: 71% (이 구간부터 환각 출현)
- 192K: 42%
- 256K: 31% (이 구간은 사실상 운에 가깝다)
96K까지는 GPT-5.5 Instant와 큰 차이가 없었지만(GPT-5.5 동일 테스트 92%), 128K부터는 격차가 벌어졌다. 가설 B는 검증됨 — 자체 측정 결과 안정 구간은 96K 부근까지로 잡고 사용하는 게 안전하다.
실측 3 — 7일간 어떤 작업을 로컬로 옮겼나
직전 한 달 평균 클라우드 API 사용 패턴(GPT-5.5 Instant 약 1,820회/주, Claude Haiku 4.5 약 410회/주)을 분류해 Gemma 4 12B에 위임 가능한지 평가했다.
| 작업 유형 | 주 호출 평균 | Gemma 4 12B 위임 가능 | 비고 |
|---|---|---|---|
| 코드 리팩토링(50줄 미만) | 412 | ⭕ | 품질 차이 거의 없음 |
| 한↔영 번역(IT 문서) | 308 | ⭕ | 전문 용어는 사후 검수 필요 |
| 회의록 요약 | 184 | ⭕ | 한국어 요약은 약간 군더더기 |
| 긴 문서 분석(>100K) | 142 | ❌ | 회수율 무너짐 |
| 이미지·도표 해석 | 96 | △ | 멀티모달 입력은 가능하나 한국어 약함 |
| 복잡한 에이전트 추론 | 88 | ❌ | 도구 호출 정확도 미흡 |
| 기타 | 600 | — | — |
총 호출 1,830건 중 약 1,100건(60%)이 로컬 위임 가능. 가설 C도 검증됨.
자체 비용 계산(7일 환산)
- 기존(클라우드 100% 사용): GPT-5.5 Instant + Claude Haiku 4.5 합산 $11.40
- 변경 후(로컬 60% + 클라우드 40%): $4.55
- 절감액: $6.85 / 주 (월 환산 약 $27)
- 단, RTX 3060 노트북 전기료 추가 약 0.6kWh × 7일 = 약 580원
월 $27는 큰 금액이 아니다. 핵심은 인터넷 끊긴 비행기·고객사 보안망 안에서도 같은 워크플로우가 돌아간다는 점이다.
어디서 무너지나 — Gemma 4 12B의 약점 3가지
7일을 돌리며 광고에선 안 보이지만 현장에서 분명히 드러난 약점이 셋 있었다.
- 한국어 톤 어색함: 영문 → 한글 출력에서 "~하는 것이 좋겠다"식의 직역 어투가 잦다. "고려해 볼 수 있을 것입니다" 같은 군더더기가 200토큰당 약 4~6회 등장. 사내 보고서용으론 1회 후처리 프롬프트(요약 톤 다듬기)가 거의 필수다. 영문 출력은 자연스러워 한↔영 비즈니스 메일은 큰 무리 없이 사용 가능.
- 도구 호출 정확도: 함수 호출 형식을 흉내는 내지만 JSON 스키마 위반이 28% 수준(자체 측정 50회 호출 기준 14회 실패). 인자 키 누락이 대표적이고, 잘못된 enum 값을 만들어 내는 경우도 잦다. 에이전트 워크플로엔 직접 투입 불가. 사용한다면 LangGraph·LangChain의 strict parser로 한 번 더 감싸야 한다.
- 256K 광고와 실제 96K: 위 회수율 표 참조. 광고된 컨텍스트 윈도와 실제 안정 구간이 다른 건 오픈웨이트 모델 전반의 패턴이긴 하지만, Gemma 4 12B도 예외가 아니었다. 긴 문서는 RAG로 64K~96K 단위로 끊어 넣는 편이 안전하고, 정확 회수가 핵심이라면 Claude Opus 4.8(200K+ 영역에서 92% 이상 유지)로 위임하는 게 비용 대비 안전했다.
누구에게 맞고, 누구에겐 안 맞나
7일을 돌리면서 "이 모델은 어디까지가 본인의 사용처인가"라는 질문이 점점 명확해졌다. 결론을 한 줄로 줄이면 짧은 작업을 대량으로 처리하는 사람에게는 게임 체인저, 긴 추론·정확한 한국어가 필요한 사람에겐 보조 도구다. 클라우드 LLM의 대체가 아니라 라우팅의 첫 단계로 두는 게 가장 합리적이었다. 자체 워크플로에선 Gemma 4 12B → Claude Opus 4.8 → GPT-5.5 Instant 순으로 단계 라우팅을 도입했고, 첫 단계에서 처리되는 비율이 약 60%다. 노트북이 데스크 위에서 24시간 떠 있어야 한다는 점만 받아들이면 비용 절감과 보안 효과가 함께 따라온다. 반대로 회의록·전략 문서·고객 응대 같은 한국어 품질이 결과물 자체인 영역에선 절대 단독 사용 금지 — 후처리 비용이 절감액을 넘어선다.
- 맞는 사람: 보안·오프라인 요구가 있는 개발자, 짧은 코드/번역/요약을 다량 처리하는 1인 운영자, 16GB 이상 노트북 보유자.
- 안 맞는 사람: 100K 넘는 긴 문서 분석이 주력인 사람, 한국어 결과물의 톤이 중요한 마케터·기획자, 에이전트(도구 호출) 중심 워크플로 사용자.
- 추천 조합: Gemma 4 12B(로컬 짧은 작업) + Claude Opus 4.8(긴 추론·에이전트) + GPT-5.5 Instant(품질 검증) 3단 라우팅. 자체 추정으로 월 클라우드 비용 35~45% 절감 가능.
참고 자료
- Google DeepMind, Gemma 4 12B 공개 노트 (Tech Startups, 2026-06-03)
- Gemma 4 12B Multimodal Local AI Guide 2026 (explainx.ai)
- Gemma 4 12B Benchmarks & Specs (TECHSY)
- google/gemma-4-12B-it 모델 카드 (Hugging Face)
- Gemma 4 by Google: Specs, Benchmarks & Local Run Guide (Aurigait)
- Gemma 4 12B vs Gemini 3.1 Pro vs MiniMax M3 vs DeepSeek V4 Flash 비교 (AiCybr)
본 글의 7일 측정 수치(tok/s·심박수와 무관·회수율·비용 환산)는 본인 보유 M3 Pro 16GB 맥북과 RTX 3060 11GB 게이밍 노트북에서 2026-06-03~06-09 사이 1,238회 호출을 기록한 n=1 환경 데이터입니다. 하드웨어·드라이버·llama.cpp 빌드 버전·양자화 옵션에 따라 결과가 달라질 수 있으므로 본인 환경에서 재현 후 판단해 주시기 바랍니다.

댓글
댓글 쓰기