확산형 LLM Mercury 2를 7일 굴렸다 — 1,243건 호출 $4.17 결산, autoregressive와 갈리는 지점은 따로 있다

이미지
AI·IT · 읽는 데 약 12분 Inception Labs의 Mercury 2는 reasoning 확산형 LLM이라는 새 카테고리를 들고 나왔다. 광고는 1,009 tokens/sec·$0.25/$0.75. 7일간 OpenRouter로 본인 카드로 결제해 1,243건 호출하며 광고 수치 검증, Claude 4.5 Haiku 동일 200건 비교, 막혔던 케이스까지 그대로 펴낸 실측 결산. 정 정보연구소장 2026년 6월 12일 · AI·IT 핵심 한 줄 결론부터 한 줄 광고 그대로 빠르고, 광고보다 절반 가까이 싸다. 그러나 지금 굴리는 모든 워크로드 가 옮길 만한 건 아니다. 7일·1,243건·$4.17의 결산에서 agentic 루프 중간 분기·JSON 응답·코드 자동완성 은 명백히 옮길 가치가 있고, 장문 창작·도메인 정확도가 중요한 분석 은 그대로 Claude Fable 5/Opus에 두는 편이 손이 덜 간다. 이번 글은 그냥 벤치마크 표를 옮겨 적는 글이 아니다. 2026-02-25 출시 직후엔 "확산형이라니 신기하네" 정도에 그쳤던 Mercury 2를 4개월 뒤인 지금 다시 들여다보는 이유는, 외부 측정 데이터(Artificial Analysis·OpenRouter·llm-stats)가 충분히 쌓였고, 무엇보다 autoregressive 독점이 흔들린다는 분석 글이 production agent 스택 진영에서 쏟아지기 시작했기 때문 이다. 그래서 본인 카드로 OpenRouter 크레딧 $5를 충전하고 한 주 동안 실제 워크플로우를 통째로 옮겨본 결과를 그대로 펴낸다. 1. autoregressive 모델이 지금까지 한 것 지난 4년의 LLM은 거의 전부 왼쪽에서 오른쪽으로 토큰을 한 개씩 골랐다. GPT-3·Claude 1부터 Claude Fable 5까지 같다. 토큰 1개 추가할 때마다 모델 전체를 한 번씩 호출한다. 이게 autoregressive 방식이고, 결과적으로 모든 추가 토큰은 그 앞 토큰의 함수 다....

Claude Code v2.1.172 중첩 서브에이전트 — 13개 워크플로우 옮겨보고 답하는 질문 12개

이미지
AI·IT · 읽는 데 약 12분 2026-06-09 Claude Code v2.1.172가 sub-agent의 sub-agent 생성을 5단계까지 허용했다. 'Subagents cannot spawn other subagents'를 뒤집은 한 줄 changelog 뒤에 7배 토큰·depth=5 모호성·allowlist 함정이 숨어 있다. 3일간 본인 워크플로우 13개를 직접 옮기며 풀어본 12개 질문 — depth 3에서 멈춘 이유, 시간 -38% / 토큰 4.8x 결산, 실패 2건의 정확한 원인. 정 정보연구소장 2026년 6월 12일 · AI·IT 핵심 한 줄 결론부터 한 줄 sub-agent의 sub-agent를 5단계까지 풀어준 v2.1.172는 "한 conversation으로 안 풀리던 문제"의 해법이지, 모든 워크플로우에 켜는 스위치 가 아니다. 3일간 본인 워크플로우 13개를 옮긴 결과 — 벽시계 −38%·토큰 비용 4.8x , 실제로 도달한 최대 depth는 3, allowlist 함정에 한 번 걸렸고 leaf summary 절단에 한 번 또 걸렸다. 언제 켜고 어디서 끄는가 가 글의 전부다. 이번 글은 보통의 "v2.1.172 정리" 글이 아니라, 본인이 운영하는 코드 리뷰·RAG·리팩터링 워크플로우 13개를 nested 형태로 옮기며 정리한 12개 질문에 대한 답이다. 13개 중 11개가 끝까지 도달했고 2개가 실패했으니, 진짜 신기한 부분은 어디서 어떻게 실패했는가 다. Boris Cherny의 06-09 발표문( "context limits in complex workflows" )이 깔끔하지만, 그 문장 한 줄 뒤엔 직접 굴려야만 알 수 있는 디테일 이 잔뜩 있다. 그 디테일을 Q&A 형식으로 정리한다. Q1. 중첩이 뭐고 왜 갑자기 풀렸나? Sub-agents can now spawn their own sub-agents (up to 5 l...

Microsoft MAI-Thinking-1 7일 비교 — Claude Sonnet 4.6·GPT-5.5와 정면 붙은 5개 시나리오

이미지
AI·IT · 읽는 데 약 12분 2026-06-02 Microsoft Build에서 공개된 MAI 7개 모델 중 첫 자체 추론 모델 MAI-Thinking-1을 Azure AI Foundry Preview에서 7일간 5개 시나리오로 Claude Sonnet 4.6·GPT-5.5와 정면 비교했다. AIME 94.5%·256K MoE의 약속을 자체 채점·청구액으로 검증한다. 정 정보연구소장 2026년 6월 11일 · AI·IT 핵심 한 줄 핵심 한 줄 2026-06-02 Microsoft가 자체 7개 MAI 모델 공개 — 그중 첫 추론 모델 MAI-Thinking-1(35B-활성 MoE·256K 컨텍스트) 을 Azure AI Foundry Preview에 신청해 7일간(2026-06-04 ~ 06-10) 다섯 시나리오로 Claude Sonnet 4.6·GPT-5.5와 정면 비교했다. 수학·SQL 다중 조인에서는 광고대로 강했고, 한글 비즈니스 보고서는 명백히 약했다 . 비용은 GPT-5.5의 약 60%까지 떨어졌지만, 자체 평가에서 매출 직결 작업의 전면 교체 결정은 아직 이르다. 이 글은 같은 작업을 세 모델에 똑같이 던졌을 때 어떤 답이 나오는지 — 그 답을 본인이 채점한 결과를 그대로 펴낸 비교 리뷰다. Microsoft가 발표문에서 AIME 2026 94.5%, Claude Opus 4.6과 비등한 SWE-Bench Pro, Surge 평가자 1,276건 블라인드에서 Claude Sonnet 4.6 우위를 강조했지만, 자체 사용처와 실제 청구액 기준으로 어떻게 보이는지가 더 중요하다. 7일간의 측정 로그를 표 4개와 응답 샘플 3개로 풀어낸다. 1. 7개 MAI 모델 한 줄 정리 — 헤드라인은 결국 두 개 Microsoft Build 2026 키노트에서 동시에 풀린 모델은 일곱이다. 다만 실 사용 의사결정에 영향을 주는 건 사실상 두 개뿐이다. 모델 역할 특징 자체 평가 MAI-Thinking-1 추론 35B-활성·~1...

Claude Fable 5 공개 첫날 — 안소픽 발표문 5개 다시 읽고 24시간 $200어치 써본 기록

이미지
AI·IT · 읽는 데 약 12분 2026-06-09 Anthropic이 Mythos급 모델 Claude Fable 5를 일반 공개했다. 안소픽·AWS·GitHub·Harvey·VentureBeat 5개 동시 발표문을 정리하고 $200 충전 후 24시간 동안 40건 태스크를 돌린 자체 비용·속도·실패 로그를 함께 펴낸다. 정 정보연구소장 2026년 6월 11일 · AI·IT 핵심 한 줄 핵심 한 줄 2026-06-09 Anthropic이 Mythos급 모델 Claude Fable 5를 일반 출시했다. 직후 24시간(06-10 09:00 ~ 06-11 09:00) Anthropic Console에 $200를 충전하고 8개 카테고리 40건 태스크를 Opus 4.8과 동시에 돌렸다. 결과만 먼저 쓰면 — SWE-Bench Pro 80.3%의 약속은 코드·논문 요약 영역에서 체감되지만, $10/$50 가격은 일반 보고서·메일 작업엔 과잉이다 . 그리고 6/22까지 무상 포함은 사실상 "공짜 벤치마크 캠페인"이다. 이번 글은 두 갈래로 정리한다. 앞부분은 같은 날 동시에 올라온 5개 공식 발표문(Anthropic·AWS Bedrock·GitHub·Harvey·VentureBeat)을 다시 읽고 무엇이 신호이고 무엇이 마케팅인지 추려본 것, 뒷부분은 발표 직후 24시간 동안 본인 카드로 충전한 $200 Anthropic Console 크레딧을 어디에 어떻게 썼는지의 실측 로그다. Fable 5와 Mythos 5의 차이, 6/23 이후 가격, 고위험 프롬프트 폴백 등 발표문에는 한 줄로 적혀 있지만 직접 만져 보지 않으면 비용 함정으로 이어지기 쉬운 지점들이 많았다. 1. "Mythos를 마침내 공개한다" — 5개 발표문이 동시에 말한 것 Anthropic이 같은 06-09 오전에 띄운 발표문과 공식 채널 5곳을 시간 순으로 다시 읽어봤다. 메시지 정렬이 거의 정확하게 같다. 🔎 Anthropic 공식 블로그 (Fab...

SWE-Bench Verified 95% vs Pro 23% — 70포인트가 사라진 자리에서 본 코딩 AI 진실

이미지
AI·IT · 읽는 데 약 8분 Scale AI가 발표한 SWE-Bench Pro는 contamination-resistant 설계로 상위 모델조차 23% 부근에 머문다. 6/9 Claude Mythos 5(Verified 95.5%)와의 격차가 무엇을 의미하는지, 실제 4개 모델을 사내 코드베이스에 직접 던져본 결과로 짚어본다. 정 정보연구소장 2026년 6월 10일 · AI·IT 핵심 한 줄 핵심 한 줄 Scale AI가 9월 발표한 SWE-Bench Pro에서 상위 모델조차 23% 부근에 머문다. 6/9 등장한 Claude Mythos 5가 SWE-Bench Verified 95.5%를 찍었지만, Pro에선 동일 모델군이 20%대에 갇힌다. 70포인트가 사라진 자리는 "contamination(학습 오염)"과 "장기 컨텍스트·다파일 수정 능력"의 차이고, 사내 코드베이스 8개에 직접 던져본 결과 Pro 점수가 현장 체감과 훨씬 가까웠다. 70포인트는 어디로 사라졌나 2026년 6월 9일 공개된 SWE-Bench Verified 리더보드는 거의 포화 상태다. Claude Mythos 5 95.5%, Claude Fable 5 95%, Claude Opus 4.8 88.6% — 상위 6개 모델이 0.8포인트 차이로 몰려 있다. 같은 모델군을 SWE-Bench Pro 공개 셋에 넣으면 점수가 평균 23% 부근으로 주저앉는다. 같은 모델, 같은 코딩 능력일 텐데 점수가 70포인트 차이 난다는 건 둘 중 하나다. (1) 둘 중 한 벤치마크가 망가졌거나, (2) 두 벤치마크가 전혀 다른 능력 을 측정한다는 것. Scale AI 논문(arXiv 2509.16941)을 읽고 사내 데이터로 검증한 결과, 답은 분명히 (2)였다. 2025년 후반부터 업계에서는 SWE-Bench Verified 점수의 신뢰도에 대한 의문이 누적되고 있었다. 도구·UI·환경 보조가 점수에 미치는 영향이 모델 자체 능력보다 큰 경우도 있었고...