확산형 LLM Mercury 2를 7일 굴렸다 — 1,243건 호출 $4.17 결산, autoregressive와 갈리는 지점은 따로 있다
AI·IT · 읽는 데 약 12분 Inception Labs의 Mercury 2는 reasoning 확산형 LLM이라는 새 카테고리를 들고 나왔다. 광고는 1,009 tokens/sec·$0.25/$0.75. 7일간 OpenRouter로 본인 카드로 결제해 1,243건 호출하며 광고 수치 검증, Claude 4.5 Haiku 동일 200건 비교, 막혔던 케이스까지 그대로 펴낸 실측 결산. 정 정보연구소장 2026년 6월 12일 · AI·IT 핵심 한 줄 결론부터 한 줄 광고 그대로 빠르고, 광고보다 절반 가까이 싸다. 그러나 지금 굴리는 모든 워크로드 가 옮길 만한 건 아니다. 7일·1,243건·$4.17의 결산에서 agentic 루프 중간 분기·JSON 응답·코드 자동완성 은 명백히 옮길 가치가 있고, 장문 창작·도메인 정확도가 중요한 분석 은 그대로 Claude Fable 5/Opus에 두는 편이 손이 덜 간다. 이번 글은 그냥 벤치마크 표를 옮겨 적는 글이 아니다. 2026-02-25 출시 직후엔 "확산형이라니 신기하네" 정도에 그쳤던 Mercury 2를 4개월 뒤인 지금 다시 들여다보는 이유는, 외부 측정 데이터(Artificial Analysis·OpenRouter·llm-stats)가 충분히 쌓였고, 무엇보다 autoregressive 독점이 흔들린다는 분석 글이 production agent 스택 진영에서 쏟아지기 시작했기 때문 이다. 그래서 본인 카드로 OpenRouter 크레딧 $5를 충전하고 한 주 동안 실제 워크플로우를 통째로 옮겨본 결과를 그대로 펴낸다. 1. autoregressive 모델이 지금까지 한 것 지난 4년의 LLM은 거의 전부 왼쪽에서 오른쪽으로 토큰을 한 개씩 골랐다. GPT-3·Claude 1부터 Claude Fable 5까지 같다. 토큰 1개 추가할 때마다 모델 전체를 한 번씩 호출한다. 이게 autoregressive 방식이고, 결과적으로 모든 추가 토큰은 그 앞 토큰의 함수 다....