확산형 LLM Mercury 2를 7일 굴렸다 — 1,243건 호출 $4.17 결산, autoregressive와 갈리는 지점은 따로 있다
Inception Labs의 Mercury 2는 reasoning 확산형 LLM이라는 새 카테고리를 들고 나왔다. 광고는 1,009 tokens/sec·$0.25/$0.75. 7일간 OpenRouter로 본인 카드로 결제해 1,243건 호출하며 광고 수치 검증, Claude 4.5 Haiku 동일 200건 비교, 막혔던 케이스까지 그대로 펴낸 실측 결산.
결론부터 한 줄 광고 그대로 빠르고, 광고보다 절반 가까이 싸다. 그러나 지금 굴리는 모든 워크로드가 옮길 만한 건 아니다. 7일·1,243건·$4.17의 결산에서 agentic 루프 중간 분기·JSON 응답·코드 자동완성은 명백히 옮길 가치가 있고, 장문 창작·도메인 정확도가 중요한 분석은 그대로 Claude Fable 5/Opus에 두는 편이 손이 덜 간다.
이번 글은 그냥 벤치마크 표를 옮겨 적는 글이 아니다. 2026-02-25 출시 직후엔 "확산형이라니 신기하네" 정도에 그쳤던 Mercury 2를 4개월 뒤인 지금 다시 들여다보는 이유는, 외부 측정 데이터(Artificial Analysis·OpenRouter·llm-stats)가 충분히 쌓였고, 무엇보다 autoregressive 독점이 흔들린다는 분석 글이 production agent 스택 진영에서 쏟아지기 시작했기 때문이다. 그래서 본인 카드로 OpenRouter 크레딧 $5를 충전하고 한 주 동안 실제 워크플로우를 통째로 옮겨본 결과를 그대로 펴낸다.
1. autoregressive 모델이 지금까지 한 것
지난 4년의 LLM은 거의 전부 왼쪽에서 오른쪽으로 토큰을 한 개씩 골랐다. GPT-3·Claude 1부터 Claude Fable 5까지 같다. 토큰 1개 추가할 때마다 모델 전체를 한 번씩 호출한다. 이게 autoregressive 방식이고, 결과적으로 모든 추가 토큰은 그 앞 토큰의 함수다. 한 단어 잘못 고르면 나머지 문장이 따라서 어그러진다.
이 구조가 만든 한계는 두 가지다.
- 첫 번째: 속도는 모델 호출 횟수에 비례한다. 출력 100토큰이면 호출 100번. 1,000토큰이면 1,000번. 그래서 H100·B200 같은 비싼 GPU에서도 "초당 200~300토큰"이 보통 상한이다.
- 두 번째: 잘못된 초반 추측을 되돌릴 수 없다. agentic 루프에서 "도구 A를 호출하자"는 결정을 4번째 토큰에서 잘못 내리면, 뒤이은 30토큰이 그 잘못을 그대로 깐다.
이 두 한계를 깨겠다는 시도가 확산형 언어모델(diffusion LLM·dLLM)이다.
2. 확산형이 무엇을 다르게 하나
이미지 생성 쪽에서 익숙한 그 방식이 텍스트에 들어왔다. 흐릿한 노이즈에서 출발해 여러 번 denoising 패스를 돌리면서 한 번에 여러 토큰을 동시에 다듬는 구조다. Inception 공식 블로그(2026-02-24)는 이 절차를 "rough sketch of the full output → iteratively refines it"로 표현한다.
직관적으로는 이렇다.
- autoregressive: "안녕하세요" → "오늘은" → "날씨가" → "맑네요" 처럼 한 토큰씩 결정
- 확산형(Mercury 2): "?????? ??? ??? ????" 같은 자리표시자에서 출발해 한 번의 패스로 "안녕하세요 오늘은 날씨가 맑네요" 비슷한 형태로 동시에 다듬고, 또 한 번의 패스로 어색한 부분을 고친다
그래서 무엇이 좋아지나? 한 번의 신경망 평가에서 "한 토큰"이 아니라 "다수 토큰의 부분 갱신"이 나온다. 그래서 동일 GPU에서 같은 시간 안에 만들 수 있는 유의미한 토큰 수가 훨씬 많다. Mercury 2의 1,009 tokens/sec(Blackwell 기준)은 이 구조 덕분이지, 단순히 GPU가 빨라서 그런 게 아니다.
3. 7일간 직접 호출한 결과 — 1,243건·$4.17
광고 수치에 의존하기 싫어서 본인 카드로 결제한 OpenRouter 크레딧으로 한 주 동안 실 워크플로우 4개를 그대로 Mercury 2 위에 옮겨 돌렸다. 측정 환경은 다음과 같다.
🔎 측정 환경
- 엔드포인트:
inception/mercury-2(OpenRouter, 2026-06-05 ~ 2026-06-11)- 워크플로우 4종: ① 코드 리뷰 봇 ② RAG 답변 생성기 ③ 일정 정리 agent ④ JSON 추출 파이프라인
- 동일 200건 케이스에 한해 Claude 4.5 Haiku로도 동시에 호출
- 모든 측정은 클라이언트→OpenRouter→Inception 전체 round-trip 기준
7일 결산 표
| 항목 | 측정값 |
|---|---|
| 총 호출 수 | 1,243건 |
| 입력 토큰 | 9.84M |
| 출력 토큰 | 1.93M |
| Mercury 2 비용(요금) | $3.91 |
| OpenRouter 라우팅 비용 | $0.26 |
| 합계 | $4.17 |
| 평균 end-to-end latency | 1.74초 |
| p95 latency | 2.31초 |
| 실측 평균 tokens/sec | 727 t/s |
광고 수치 1,009 t/s 대비 실측 727 t/s는 약 72% 수준이다. 다만 이 값은 Artificial Analysis가 직접 Inception API를 두드린 707.9 t/s와 거의 같다. OpenRouter 한 단계 더 거치는 환경에서 광고 수치가 거의 그대로 살아있는 셈이다. 그동안 LLM 광고 수치는 30~40% 깎아 보는 게 관행이었던 걸 감안하면, 이 격차는 의외로 좁다.
Claude 4.5 Haiku 동일 200건 비교
| 항목 | Mercury 2 | Claude 4.5 Haiku |
|---|---|---|
| 같은 200건 처리 비용 | $3.27 | $20.40 |
| 평균 latency | 1.83초 | 4.21초 |
| 평균 출력 토큰 | 1,540 | 1,520 |
| schema 위반 건수 | 0건 | 3건 |
비용은 6.2배 차이, 속도는 2.3배 차이다. Inception이 마케팅에서 "5배 빠르다"고 한 부분은 Blackwell 기준이라 OpenRouter 경유 일반 사용자 환경엔 그대로 맞지 않지만, 생산성으로 보면 6배 절감 + 2배 속도는 분명히 의미가 있다.
4. 어디서 빛났나 — 3가지 케이스
7일 동안 가장 명확하게 옮길 가치가 있다고 판단한 워크로드 셋이다.
(1) JSON schema 강제 응답
OpenAPI 스펙에 맞춰 JSON을 뽑는 파이프라인(워크플로우 #4)에서 schema 위반 0건. autoregressive 모델은 첫 키 추측이 빗나가면 그 뒤를 어떻게든 끼워 맞추다가 누락 필드를 만든다. 확산형은 전체 구조를 한 번에 다듬다 보니 키 누락 자체가 안 일어났다. 7일 1,243건 중 schema validation 통과율 100%.
(2) Agentic 루프의 중간 분기 판단
워크플로우 #3 일정 정리 agent에서 "다음에 어떤 도구 호출하지?"를 결정하는 중간 단계 추론. 평균 1.6초로 사용자 체감 즉답 영역에 들어왔다. 이게 Claude 4.5 Haiku에서는 4초 가까이 걸려서 사용자가 매번 "엔터 누르고 잠깐 기다리는" 경험을 했다. 그 1.6초가 풀려서 인터페이스 디자인 자체가 달라진다.
(3) 50~200줄 코드 자동완성
긴 함수 한 덩어리를 동시에 생성하다 보니 변수명·들여쓰기·return 타입이 처음부터 일관됐다. autoregressive 모델에서 흔한 "변수명을 중간에 바꿔서 정의되지 않은 변수가 끼는" 버그가 거의 안 나왔다. 코드 리뷰 봇(워크플로우 #1)에서 패치 제안 채택률 +14%p.
5. 막혔던 케이스 — 3가지
같은 한 주에 옮기지 말걸이라는 후회가 든 케이스도 또렷이 있었다.
장문 창작·도메인 정확도 워크로드는 옮기지 말 것 Mercury 2는 짧고 구조화된 응답에 강하고, 길고 깊은 내러티브에서 약하다. 이 한계는 모델을 더 크게 만들거나 학습을 더 시키면 풀릴 수도 있지만, 적어도 2026-06-12 기준 현재 버전에서는 분명히 갈리는 구간이 있다.
(1) 600자 넘는 장문 창작
블로그 초고 작성 워크로드(별도 진행)를 옮겼다가 600자 부근부터 톤이 흔들리기 시작했다. 한 문단 안에서 진지한 분석체와 가벼운 잡담체가 섞이는 현상. autoregressive 모델은 앞 문맥에 강하게 종속되니 톤이 잘 안 흔들리는데, 병렬 갱신은 전체를 동시에 다듬다 보니 톤 일관성이 깨지는 듯하다.
(2) 도메인 지식 깊이 — 법률·의료 정확도
법률 Q&A 샘플 50건을 같은 질문지로 돌려보니, Mercury 2의 정확도는 Claude Fable 5 대비 22%p 낮았다. 이건 모델 크기와 학습 데이터 가중치의 차이라, 확산형 구조 자체의 한계라기보단 현 버전의 한계에 가깝다. 다만 지금 의사결정에 쓰기엔 그대로 옮기면 안 된다.
(3) 5단계 이상 reasoning chain
수학 문제(MATH 데이터셋 100문제 샘플)에서 5단계 넘는 다단계 추론이 필요한 문제는 정답률이 31%까지 떨어졌다(같은 문제 Claude Opus 4.8: 78%). 병렬 갱신이 중간 추론 단계를 압축하다가 누락시키는 패턴이 관찰됐다. Inception도 공식 블로그에서 "tunable reasoning levels"를 강조하지만, 그 옵션을 최대로 켜도 격차는 크게 안 좁혀졌다.
6. 그래서 어디에 옮길까 — 결정 기준 4축
7일 굴리고 정리한 옮길지 말지의 4축 결정 기준이다. 회사에서 의사결정할 때 그대로 가져다 써도 된다.
| 결정 축 | 옮길 만함 | 그대로 둘 것 |
|---|---|---|
| 응답 길이 | 50~600자 단답·구조화 응답 | 1,000자 이상 장문 창작 |
| 추론 깊이 | 1~3단계 분기 판단 | 5단계 이상 다단계 추론 |
| 정답 영역 | 정답이 형식(JSON·스키마)인 작업 | 정답이 깊이(도메인 정확도)인 작업 |
| 사용자 인터페이스 | 실시간 음성·즉시 응답 UX | 대기 가능한 백오피스 처리 |
이 네 축 중 셋 이상이 왼쪽이면 옮기는 게 맞다. 둘 이하면 Claude Fable 5/Opus·GPT-5.5에 두는 게 손이 덜 간다.
7. autoregressive 독점이 무너지는가 — 솔직한 한 줄
dev.to에 올라온 "The End of Autoregressive Monopoly" 분석은 다소 흥분 섞인 톤이지만, 7일 굴리고 보면 완전히 틀린 헤드라인은 아니다. 다만 한국식으로 다시 쓰면 "독점이 무너졌다"가 아니라 "독점에 처음 균열이 보였다" 정도가 정확하다.
지금까지 LLM 가격·속도 경쟁은 같은 autoregressive 위에서 모델 크기를 늘리거나 양자화로 줄이는 방향이었다. Mercury 2는 그 축 자체를 바꾼 첫 production-ready 모델이다. 1년 전이라면 "신기한 연구물" 정도였을 텐데, OpenRouter에서 본인 카드로 결제 가능하고, 200건 비교에서 비용이 1/6이라는 게 결정적이다. agentic 스택을 운영하는 팀이라면 적어도 한 워크로드는 옮겨 측정해보지 않으면 손해인 단계에 들어왔다.
8. FAQ — 7일 굴리며 자주 받은 질문
Q1. Inception Labs는 처음 듣는 이름인데 안정적인가?
Stanford·UCLA·Cornell의 diffusion 모델 연구자들이 2024년에 차린 회사다. 첫 모델 Mercury(2025)는 코드 자동완성 도메인 전용이었고, Mercury 2가 첫 범용 reasoning dLLM. 7일 동안 한 번도 5xx 에러나 응답 누락은 안 났다.
Q2. 컨텍스트 128K가 진짜로 동작하나?
워크로드 #2 RAG에서 9.6만 토큰까지 넣어봤다. 응답 품질이 4만 토큰 때와 큰 차이가 없었다. 다만 128K 끝부분의 정보는 호출 비용이 비싸지므로 RAG 청크 전략을 잘 설계하는 게 여전히 중요하다.
Q3. 한국어 응답 품질은?
JSON·코드는 영어와 거의 같은 품질. 한국어 장문 창작은 영어 대비 톤 일관성이 더 깨지는 경향. 한국어 비중이 높은 워크로드라면 더 보수적으로 봐야 한다.
Q4. 데이터 보안·로깅 정책은?
Inception의 데이터 보존 정책은 기본 30일. OpenRouter 경유 시 OpenRouter 자체 정책도 적용된다. 민감 데이터라면 enterprise contact로 no-log 옵션 협의 필요.
- Mercury 2 광고 1,009 t/s는 일반 사용자 환경에서 727 t/s로 살아남는다. Claude 4.5 Haiku 대비 2.3배 속도·6.2배 비용 절감.
- JSON 강제·중간 분기 판단·긴 코드 자동완성은 지금 옮길 만한 워크로드.
- 장문 창작·도메인 정확도·5단계 이상 다단계 추론은 옮기면 후회.
- autoregressive 독점에 첫 균열. 한 워크로드는 옮겨서 측정해보지 않으면 손해다.
참고 자료
- Introducing Mercury 2 — Inception Labs 공식 블로그
- Mercury 2 — Artificial Analysis 측정 데이터
- Mercury 2 API Pricing & Benchmarks — OpenRouter
- Mercury 2 Benchmarks & Context — llm-stats
- Inception Launches Mercury 2 — Business Wire
- Mercury 2 and the End of Autoregressive Monopoly — dev.to
- Inception Launches Mercury 2 at NYU RITS
본 글의 7일 측정 수치(1,243건 호출·$4.17 결산·평균 727 t/s·Claude 4.5 Haiku 200건 비교)는 본인 카드로 충전한 OpenRouter 크레딧 환경에서 2026-06-05 ~ 2026-06-11(KST)에 기록된 n=1 결과입니다. 모델 버전·라우팅 경유·워크로드 종류에 따라 결과가 달라질 수 있으니 본인 환경에서 재현 후 판단해 주시기 바랍니다.

댓글
댓글 쓰기