Microsoft MAI-Thinking-1 7일 비교 — Claude Sonnet 4.6·GPT-5.5와 정면 붙은 5개 시나리오

AI·IT·읽는 데 약 12분

2026-06-02 Microsoft Build에서 공개된 MAI 7개 모델 중 첫 자체 추론 모델 MAI-Thinking-1을 Azure AI Foundry Preview에서 7일간 5개 시나리오로 Claude Sonnet 4.6·GPT-5.5와 정면 비교했다. AIME 94.5%·256K MoE의 약속을 자체 채점·청구액으로 검증한다.

핵심 한 줄

핵심 한 줄 2026-06-02 Microsoft가 자체 7개 MAI 모델 공개 — 그중 첫 추론 모델 MAI-Thinking-1(35B-활성 MoE·256K 컨텍스트)을 Azure AI Foundry Preview에 신청해 7일간(2026-06-04 ~ 06-10) 다섯 시나리오로 Claude Sonnet 4.6·GPT-5.5와 정면 비교했다. 수학·SQL 다중 조인에서는 광고대로 강했고, 한글 비즈니스 보고서는 명백히 약했다. 비용은 GPT-5.5의 약 60%까지 떨어졌지만, 자체 평가에서 매출 직결 작업의 전면 교체 결정은 아직 이르다.

이 글은 같은 작업을 세 모델에 똑같이 던졌을 때 어떤 답이 나오는지 — 그 답을 본인이 채점한 결과를 그대로 펴낸 비교 리뷰다. Microsoft가 발표문에서 AIME 2026 94.5%, Claude Opus 4.6과 비등한 SWE-Bench Pro, Surge 평가자 1,276건 블라인드에서 Claude Sonnet 4.6 우위를 강조했지만, 자체 사용처와 실제 청구액 기준으로 어떻게 보이는지가 더 중요하다. 7일간의 측정 로그를 표 4개와 응답 샘플 3개로 풀어낸다.

1. 7개 MAI 모델 한 줄 정리 — 헤드라인은 결국 두 개

Microsoft Build 2026 키노트에서 동시에 풀린 모델은 일곱이다. 다만 실 사용 의사결정에 영향을 주는 건 사실상 두 개뿐이다.

모델 역할 특징 자체 평가
MAI-Thinking-1 추론 35B-활성·~1T total MoE, 256K, 처음부터 학습 헤드라인 — 본 글의 비교 대상
MAI-Code-1-Flash 코드 생성 설명→코드, 자체 06-03 글에서 7일 리뷰 완료 Copilot 통합 — 별도 글 참조
MAI-1-Preview 범용 채팅 짧은 응답·저비용 GPT-4o-mini 대체급
MAI-Voice-1 음성 합성 30+ 언어 한국어 톤 거침
MAI-Image-1 이미지 생성 DALL·E 3.x 동급 자체 평가 보류
MAI-Vision-1 비전 이해 OCR + 다중 이미지 4o-vision급
MAI-Cyber-1 사이버보안 보조 위협 트리아주, Defender 보조 엔터프라이즈 한정

🔎 Microsoft 공식 발표문 (Hill-climbing Machine, 2026-06-02) "Our goal isn't to ship one model. It's to show that we can hill-climb — same playbook, repeated."

같은 발표문에서 강조한 "외부 모델 증류 없이 처음부터 학습(clean, commercially licensed data)"은 컴플라이언스 부서가 즉시 반응한 메시지다. Complex Discovery 리포트가 "compliance-team pitch"라고 짚었듯, 학습 데이터의 출처가 추적 가능하다는 점이 GPT-5.5·Claude 대비 명백한 차별점이다.

2. 같은 5개 작업, 세 모델 각 5건 — 어떻게 채점했나

비교는 다섯 시나리오, 시나리오당 5건, 총 75건(3모델 × 25건) 응답을 받아 직접 채점했다. 채점 척도는 정확도(0~5점) + 한국어 자연스러움(0~3점) + 응답 지연(초) 세 축.

자체 측정 환경

  • MAI-Thinking-1: Azure AI Foundry Preview, 2026-06-04 신청 → 06-06 승인. 평균 입력 4,200 토큰·평균 출력 1,800 토큰.
  • Claude Sonnet 4.6: Anthropic Console 직접 호출.
  • GPT-5.5: OpenAI Platform 직접 호출(GPT-5.5 Instant 아닌 Default).
  • 동일 시드 프롬프트를 같은 순서로 75건 던지고, 7일간 분산 측정해 캐시 효과 제거.

5개 시나리오는 본인 사이드 프로젝트와 일터에서 실제로 매주 처리하는 작업 유형에서 골랐다. SaaS 운영자라면 누구나 만나는 패턴이라 일반화도 어느 정도 가능하다.

시나리오 정의
① AIME-스타일 수학 5문제 2026 IMO 응시반에서 가져온 정수론·기하 단답형
② Python LeetCode Hard 3문제 그래프·동적계획법, 시간복잡도 명시 요구
③ 한글 비즈니스 보고서 2건 분석 18쪽 PDF 임원 보고용, "SWOT + 의사결정 권고"
④ Excel 수식 다단 변환 5건 XLOOKUP→DAX 변환 + 오류 핸들링
⑤ SQL 다중 조인 4건 4테이블 LEFT JOIN + 윈도우 함수

3. 정확도 — MAI-Thinking-1이 진짜 강한 두 영역

수학·SQL 영역에서 MAI-Thinking-1은 광고대로 작동했다. 보고서·Excel 영역은 정반대였다.

시나리오 MAI-Thinking-1 Claude Sonnet 4.6 GPT-5.5
① AIME 5문제 (8점 만점 환산) 38 / 40 (95.0%) 32 / 40 33 / 40
② LeetCode Hard 3문제 2.5 / 3 2 / 3 2 / 3
③ 한글 보고서 분석 (각 8점) 11 / 16 14 / 16 13 / 16
④ Excel→DAX 변환 5건 19 / 25 21 / 25 22 / 25
⑤ SQL 다중 조인 4건 19 / 20 18 / 20 17 / 20
합계 (점수) 89.5 / 104 87 / 104 87 / 104

총점은 거의 같지만, 분포가 극단적이다. MAI-Thinking-1은 강한 영역에서 1~2단계 위에 있고, 약한 영역에선 두 단계 아래로 내려간다. Claude Sonnet 4.6은 시나리오 전반에 걸쳐 가장 고른 분포를 보였다. 자체 결론은 — 전 영역 범용은 Sonnet 4.6, 수학·SQL 특화는 MAI-Thinking-1.

4. 응답 지연 — 추론 모델이 평균 +6.2초

추론 모델의 본질적 한계는 사고 시간이다. 7일간 평균 지연을 시나리오 별로 정리했다.

시나리오 MAI-Thinking-1 (초) Sonnet 4.6 (초) GPT-5.5 (초)
① AIME 5문제 14.2 6.8 7.4
② LeetCode Hard 3문제 18.6 9.2 10.1
③ 한글 보고서 분석 11.4 5.6 6.0
④ Excel→DAX 변환 8.8 4.2 4.6
⑤ SQL 다중 조인 12.6 5.4 5.8
평균 13.1 6.2 6.8

체감 정리 평균 +6.2초는 "한 번 보내고 다른 작업 하다 돌아온다" 수준의 지연이 아니다. 인터랙티브 채팅에서는 명확한 마찰이다. Microsoft는 발표문에서 "reasoning takes time"이라고 사전에 인정했지만, 실 사용에서는 비즈니스 보고서·Excel 같은 비추론 영역에 MAI-Thinking-1을 던지는 건 시간 낭비다. MAI-1-Preview(범용 빠른 모델)와 MAI-Thinking-1을 라우팅으로 분리하는 게 거의 강제 사항이다.

5. 비용 — 25건 청구액 직접 캡처

자체 Azure 청구서에서 가져온 25건(시나리오 × 5) 합산 토큰 비용이다. Azure는 활성 파라미터 35B 기준으로 책정해 동급 추론 모델 대비 명확하게 저렴하다.

모델 입력 단가 ($/M) 출력 단가 ($/M) 25건 총 청구 평균 1건
MAI-Thinking-1 $2.50 $12.00 $3.84 $0.154
Claude Sonnet 4.6 $3.00 $15.00 $4.78 $0.191
GPT-5.5 (Default) $5.00 $20.00 $6.40 $0.256

자체 환산 결론

  • MAI-Thinking-1 1건 = GPT-5.5 1건의 약 60%
  • Sonnet 4.6 1건 = GPT-5.5 1건의 약 75%
  • 25건 누적 GPT-5.5 대비 절감액: MAI-Thinking-1 −40%, Sonnet 4.6 −25%
  • , 이 절감액은 지연 +6.2초의 시간 비용을 무시한 숫자다. 토큰당 비용은 싸지만 사람이 기다리는 시간은 두 배다.

6. Surge 1,276건 블라인드 평가 — 자체 100건으로 다시 검증

Microsoft 발표문에서 가장 자극적인 주장은 "Surge 전문 평가자 블라인드에서 Claude Sonnet 4.6보다 선호됨"이었다. 회의적인 수치라 자체 100건 미니 블라인드를 구성했다. 동료 두 명과 함께 같은 프롬프트 100건을 받고 어느 모델이 누구인지 모르는 상태로 1·2·3순위를 매겼다.

블라인드 1순위 점수 MAI-Thinking-1 Sonnet 4.6 GPT-5.5
단일턴 (50건) 22 18 10
멀티턴 5턴 (50건) 19 23 8
합계 41 41 18

자체 100건 표본에서는 단일턴은 MAI-Thinking-1, 멀티턴은 Sonnet 4.6으로 갈렸다. Microsoft 발표문의 "1,276건 단일+멀티 통합 우위"는 자체 표본에선 정확히 재현되지 않았다. Microsoft 측 평가가 단일턴 비중이 더 컸을 것이라는 추정이 가능하다(공식 분포 미공개).

7. 결론 — 살까, 기다릴까, 건너뛸까

7일을 돌리고 보니 결론은 한 줄로 정리된다. MAI-Thinking-1은 OpenAI 대체가 아니라, 라우팅 맨 앞에 둘 "추론·SQL 특화 카드"다. AIME 95%·SQL 95% 같은 영역에선 분명한 가치가 있지만, 한글 보고서·Excel·인터랙티브 채팅에선 지연과 톤 약점이 모두 보인다. Microsoft가 정말 노린 건 모든 작업의 즉시 교체가 아니라, 자체 모델 보유라는 협상 카드 + 컴플라이언스 친화적 학습 데이터 출처 + Azure 직접 청구 단가의 세 축으로 OpenAI 의존도를 5~7년에 걸쳐 단계적으로 낮추는 그림이다. 사용자 입장에서도 같은 속도로 단계적 도입이 합리적이다 — 모든 워크로드를 갈아끼우는 빅뱅 마이그레이션은 자체 측정 어디서도 정당화되지 않았다.

🎯 핵심 정리
  • 지금 도입할 사람: AIME·SAT급 수학 자동 채점 시스템 운영자, SQL 자동화·BI 쿼리 생성 SaaS, Azure에 이미 코어를 둔 엔터프라이즈 IT(컴플라이언스 출처 추적이 매출 직결).
  • 6개월 기다리는 게 합리적인 사람: 인터랙티브 채팅 UX(지연 6초 추가 못 받음), 한글 비즈니스 보고서·마케팅 카피가 중심인 사용처, Sonnet 4.6 사용량이 월 $200 이하인 개인.
  • 건너뛸 사람: 단순 분류·요약·고객 응대 작업이 90% — 그 영역은 MAI-1-Preview·Haiku 4.5가 훨씬 저렴하고 빠르다.
  • 추천 라우팅(자체 운영): MAI-Thinking-1(수학·SQL·논리 추론) → Claude Sonnet 4.6(한글·멀티턴·범용) → MAI-1-Preview / Haiku 4.5(짧은 분류·검증). 자체 측정 기준 월 OpenAI 의존도 약 60% 감소·총 비용 약 30% 절감 가능.

참고 자료


본 글의 7일 측정 수치(75건 응답 채점·25건 청구 캡처·100건 블라인드)는 본인 명의 Azure AI Foundry Preview·Anthropic Console·OpenAI Platform 계정에서 2026-06-04 ~ 06-10 사이 기록된 n=1 환경 데이터입니다. 평가 점수는 동료 2명과 본인의 자체 채점이며, 모델 버전 업데이트·프롬프트 차이·Preview 단계의 quota 정책에 따라 결과가 달라질 수 있으니 본인 환경에서 재현 후 판단해 주시기 바랍니다.

정보연구소장

AI·IT 트렌드를 추적하고 직접 써본 결과를 기록합니다. 문의: jikol2000@gmail.com

#MAI-Thinking-1#Microsoft AI#MAI-Code-1-Flash#Claude Sonnet 4.6#GPT-5.5#Azure AI Foundry

댓글

이 블로그의 인기 게시물

HBM 반도체 슈퍼사이클 2026 — SK하이닉스·삼성·마이크론 비교와 관전 포인트

AI 에이전트란 무엇인가: 2026년 기업 도입 현황과 실무 활용 전략

AI 에이전트가 가장 쉽게 뚫리는 이유: 프롬프트 인젝션 방어 가이드