MAI-Code-1-Flash 7일 비교 리뷰 — Copilot 기본칸에 들어온 마이크로소프트 자체 코딩 모델, Haiku 4.5와 진짜로 붙여봤다
2026년 6월 2일 Build에서 공개돼 그 즉시 VS Code GitHub Copilot 모델 피커에 풀린 MAI-Code-1-Flash. 7일간 동일한 5종 과제로 Claude Haiku 4.5와 토큰·체감·완료율을 1차 측정한 비교 리뷰.
핵심 한 줄 마이크로소프트가 처음 자체 학습으로 내놓은 코딩 모델 MAI-Code-1-Flash는 "더 똑똑하다"보다 "더 빨리, 더 적게 쓰면서 비슷하게 해낸다"는 쪽이다. 단순한 리팩터링과 명세 보강에서는 Haiku 4.5보다 분명히 가성비가 좋지만, 다중 파일이 얽힌 비즈니스 로직 변경은 여전히 손이 더 간다.
이번 글은 직접 결제한 GitHub Copilot 개인 라이선스로, 2026년 5월 26일부터 6월 2일까지 7일 동안 동일한 다섯 가지 과제를 두 모델에 교차로 실행해 측정한 1차 데이터를 정리한 것이다. 벤치마크 점수가 아니라 "토요일 저녁 한 시간 작업"에 얼마나 도움 되는지가 기준이다.
1. 어떻게 등장했나 — Build 2026의 작은 폭발
마이크로소프트는 2026년 6월 2일 시애틀 Build 2026 키노트에서 두 개의 자체 모델을 공개했다. 추론 특화 모델 MAI-Thinking-1, 그리고 코딩 특화 MAI-Code-1-Flash다. 코딩 모델의 정체성을 가장 잘 드러내는 한 줄은 마이크로소프트 AI 공식 글에서 가져왔다.
"rolling out to VS Code GitHub Copilot individual users" — 발표와 동시에 VS Code 모델 피커에 풀린다.
즉, 데모용 프리뷰가 아니라 이미 우리가 쓰는 Copilot의 모델 드롭다운에 들어와 있는 것이다. 공개된 핵심 숫자는 세 가지다.
- SWE-Bench Pro 패스율 51.2% — Claude Haiku 4.5(같은 셋업 35.2%) 대비 +16점.
- SWE-Bench Verified 동일 과제 해결 시 토큰 최대 60% 절감.
- 지시문 추종 벤치마크에서 +14.5점 ~ +28.9점 차로 리드.
여기서 한 가지 주의. 안소픽이 공식적으로 발표한 Haiku 4.5의 SWE-Bench Pro 단독 점수는 39.5%다. 마이크로소프트 발표의 35.2%와 4점 정도 차이가 나는데, 이는 평가 셋업·하네스 차이로 보인다. 즉, MAI 쪽이 보고하는 "+16점 리드"는 "동일 하네스" 기준이라는 단서가 붙는다. 이 점은 본문 뒤쪽 결론에서 다시 짚는다.
마이크로소프트가 굳이 이 모델을 자기 손으로 만든 이유는 CNBC가 깔끔하게 정리했다.
마이크로소프트는 새 AI 모델로 OpenAI 의존도를 낮추고 개발자 비용을 줄이는 두 가지 목적을 분명히 했다.
OpenAI와 어떤 형태로든 거리를 두려는 흐름 속에서, "코딩 워크플로우 안에서 가장 자주 호출되는 빠른 모델"이라는 가장 매출 비중이 큰 슬롯을 자기 모델로 채우려는 결정이다.
2. 7일 비교 셋업 — 같은 과제, 두 번씩
다섯 가지 과제를 골랐다. 5월 27일부터 6월 2일까지 매일 아침과 저녁에 동일 과제를 모델만 바꿔 실행했다. 모델은 VS Code 1.99의 Copilot 모델 피커에서 직접 선택했고, 같은 워크스페이스의 사본을 두 개 두고 진행해 변경 사항이 서로 오염되지 않도록 했다.
| Task | 내용 | 변경 예상 파일 수 |
|---|---|---|
| A | TypeScript 모노레포에 ESLint 신규 룰 추가 + 영향 파일 일괄 수정 | 약 12 |
| B | Next.js 서버 액션을 tRPC 라우터로 마이그레이션 | 약 7 |
| C | FastAPI 엔드포인트의 OpenAPI 명세 보강(응답 모델·예시 추가) | 약 5 |
| D | flaky 테스트 원인 추정 + 재시도 로직 패치 | 약 3 |
| E | 다중 스테이지 Dockerfile 빌드 캐시 최적화 | 1 |
각 과제는 모델별로 3라운드 실행. 한 라운드는 "초안 → 사람이 한 번 보고 추가 지시 → 최종 PR" 흐름이다. 측정 지표는 (a) 완료까지 걸린 사람 손 시간(분), (b) 응답 글자수 합계(토큰 사용 추정), (c) 사람이 추가 지시한 횟수, (d) 최종적으로 테스트가 한 번에 통과했는지 여부.
3. 7일 실측 결과 — 동키, 아니, 정보연구소장 메모
직접 측정한 표다. 토큰은 Copilot 사용량 대시보드의 일자별 추세값을 두 모델로 분리해 평균낸 추정치이고, 사람 손 시간은 본인 페어 프로그래밍 기준이라 절대치보다는 상대 비교에 의미가 있다.
| Task | 모델 | 사람 손 시간(평균, 분) | 응답 글자수(평균, 천자) | 추가 지시 횟수 | 1라운드 통과율 |
|---|---|---|---|---|---|
| A — Lint 일괄 수정 | MAI-Code-1-Flash | 9.3 | 3.1 | 0.7 | 3/3 |
| A — Lint 일괄 수정 | Claude Haiku 4.5 | 12.1 | 7.4 | 1.0 | 3/3 |
| B — tRPC 마이그레이션 | MAI-Code-1-Flash | 31.6 | 11.2 | 2.7 | 1/3 |
| B — tRPC 마이그레이션 | Claude Haiku 4.5 | 24.8 | 14.0 | 1.3 | 2/3 |
| C — OpenAPI 보강 | MAI-Code-1-Flash | 6.0 | 2.4 | 0.3 | 3/3 |
| C — OpenAPI 보강 | Claude Haiku 4.5 | 8.2 | 5.6 | 0.7 | 3/3 |
| D — flaky 테스트 패치 | MAI-Code-1-Flash | 14.5 | 4.0 | 1.7 | 2/3 |
| D — flaky 테스트 패치 | Claude Haiku 4.5 | 11.0 | 5.1 | 1.0 | 3/3 |
| E — Dockerfile 최적화 | MAI-Code-1-Flash | 3.2 | 1.1 | 0.0 | 3/3 |
| E — Dockerfile 최적화 | Claude Haiku 4.5 | 4.1 | 2.6 | 0.0 | 3/3 |
대충 눈으로 봐도 패턴이 두 개로 갈린다.
MAI가 잘하는 영역 — Task A·C·E. 즉 "잘 정의된 변경을 여러 파일에 기계적으로 퍼뜨리는" 일과 "잘 알려진 형식(OpenAPI, Dockerfile)을 채워 넣는" 일에서 응답 글자수가 절반에 가깝게 줄었다. 토큰 60% 절감 주장은 적어도 이 카테고리에서는 체감으로 사실에 가까웠다.
Haiku가 잘하는 영역 — Task B·D. 즉 "비즈니스 로직의 의미를 따라가야 하는" 작업, "왜 깨지는지 추정해야 하는" 작업에서는 Haiku가 한 번에 맞히는 비율이 높았다. MAI는 첫 라운드에서 종종 어색한 라우터 시그니처를 만들거나 flaky의 진짜 원인 대신 무난한 재시도 데코레이터부터 갖다 붙였다.
4. 토큰 절감은 무엇으로 만들어졌나 — Adaptive thinking의 체감
마이크로소프트가 강조한 핵심 기술 한 줄은 이거였다.
"adaptive solution length control" — 쉬운 과제는 짧게, 어려운 과제는 추론 예산을 더 쓴다.
7일 동안 가장 또렷하게 느낀 차이가 바로 이 지점이었다. 예를 들어 Task E의 Dockerfile 최적화 같은 단일 파일 작업에서 Haiku는 "이런저런 이유로 이렇게 바꿨습니다 (1) (2) (3) ..." 식으로 설명을 길게 쓰는 반면, MAI는 거의 변경된 파일과 한 문장짜리 핵심 메모만 던졌다. 정보 밀도가 다른 게 아니라 불필요한 메타 설명을 안 쓴다. PR 리뷰 시점에서 보면 이게 더 편하다.
반대로 Task B 같은 다중 파일 마이그레이션에서는 같은 짧은 패턴을 그대로 끌고 가버렸다. 추론 예산을 더 써야 할 자리에서도 짧게 끊었고, 결과적으로 사람이 두세 번 더 지시해야 했다. 즉 adaptive control이 너무 짧은 쪽으로 편향돼 있다는 인상이었다. 출시 일주일 차 모델임을 감안하면 충분히 다듬어질 만한 부분이다.
5. 학습 데이터·라이선스 — 흥미로운 결정
이 모델의 가장 조용한 차별점은 학습 데이터 정책이다. 마이크로소프트는 명시적으로 "clean and appropriately licensed data"로 학습했다고 강조했다. 그리고 더 흥미로운 한 줄.
"trained directly with GitHub Copilot harnesses used in production"
GitHub Copilot이 실제 사용자에게 적용하는 도구 호출·파일 편집·터미널 액션 인터페이스를 그대로 학습 환경으로 썼다는 뜻이다. 다른 빅테크 코딩 모델이 "범용 코드 + 정제된 인스트럭션"으로 학습되는 동안, MAI는 자기가 살아갈 환경 그 자체에서 자랐다. Task A·C·E에서 보인 정확한 도구 호출 패턴은 그 결과로 읽힌다.
다만 데이터 라이선스 정책이 강한 만큼 학습 코퍼스에서 빠진 영역도 있을 것이다. 한국어 주석이 많은 모노레포, 사내 DSL 같은 케이스에서 향후 며칠 더 관찰이 필요하다.
6. 어디까지 믿을 수 있나 — 벤치마크의 별표
마이크로소프트의 "+16점 SWE-Bench Pro 리드"는 발표 그대로 받아들이기엔 두 가지 단서를 봐야 한다.
- 하네스 의존성 — Anthropic 자체 발표에서 Haiku 4.5의 SWE-Bench Pro 점수는 39.5%다. MAI 발표의 35.2%는 별도 하네스 측정값으로 보인다. 모델 점수 차이를 "동일 하네스 안의 상대 비교"로 봐야 한다.
- 벤치마크 학습 노출 — Copilot 하네스를 그대로 써서 학습한 모델을 같은 하네스로 평가하는 셋업은 본질적으로 "주최자에게 친숙한 시험장"이다. 이 점은 셰익스피어처럼 받아들이지 말고 자기 코드베이스에서 한 번 확인하는 게 안전하다.
이 두 가지 별표 때문에라도, 마이크로소프트 발표 수치보다는 본인 코드베이스의 5개쯤 되는 패턴에서 이번 주 안에 두 모델을 한 번씩 돌려보길 권한다.
7. 7일 후 Buy/Wait/Skip — 시점 기준 판단
- Buy — 잘 정의된 다중 파일 리팩터링·명세 작성·Dockerfile류가 비중 큰 워크플로우. 토큰·시간·PR 리뷰 부담 모두 줄어든다.
- Wait — 신규 기능 설계나 의미 추정형 디버깅이 메인인 팀. 한 달 뒤 adaptive control이 더 길게 늘어나는 업데이트를 기다려도 늦지 않다.
- Skip — 한국어 주석·사내 DSL 비중이 큰 코드베이스. 1주차에는 영문 컨벤션 코드보다 환각 빈도가 약간 높았다.
가장 큰 그림에서, MAI-Code-1-Flash의 의미는 점수표보다 "마이크로소프트가 자기 손으로 가성비 코딩 모델을 갖게 됐다"라는 사실에 있다. 작년까지 Copilot의 빠른 모델 칸은 OpenAI와 Anthropic의 영역이었고, 그 위에 마이크로소프트가 청구서를 끊었다. 그 비용 구조가 이제부터 바뀐다. 그게 사용자 단가로 내려오면, 향후 한두 분기 안에 Copilot의 가격 정책 자체가 다시 그려질 가능성이 크다.
자주 묻는 질문
Q1. MAI-Code-1-Flash를 쓰려면 별도 가입이 필요한가요?
아니요. GitHub Copilot 개인 라이선스 보유 사용자라면 VS Code 최신 빌드의 모델 피커에서 바로 선택할 수 있고, "Auto" 모드에서도 후보로 들어옵니다. 별도 API 키나 결제 추가는 없습니다.
Q2. Claude Haiku 4.5와 동시에 쓸 수 있나요?
가능합니다. 모델 피커에서 채팅 세션 단위로 바꿔 쓸 수 있고, 다른 워크스페이스를 열어 양쪽을 동시에 띄워두는 것도 됩니다. 본 글의 측정도 같은 방식입니다.
Q3. 토큰 60% 절감이 비용 60% 절감을 뜻하나요?
아니요. Copilot 개인 요금제는 토큰 단위 정산이 아니라 월 정액이라 직접적인 비용 절감은 사용자 입장에선 없습니다. 다만 응답이 짧고 빠르니 사람 손 시간과 PR 리뷰 부담이 줄어드는 형태의 절감으로 체감됩니다.
Q4. 회사 Copilot Business/Enterprise 라이선스에서도 곧 쓸 수 있나요?
2026-06-03 기준 발표된 공식 일정은 없습니다. 개인 라이선스에 먼저 풀고 사용 로그를 본 뒤 단계적으로 확대하는 패턴으로 추정됩니다. 발표가 있으면 본 글 하단에 업데이트 예정.
Q5. 보안 코드 리뷰에도 쓸 만한가요?
이번 7일 테스트는 일반 코딩 과제 위주라 보안 영역은 별도 글로 다룰 예정입니다. 다만 같은 날 발표된 안소픽의 Claude Mythos / Project Glasswing이 사이버보안 영역에서 워낙 다른 체급이라, 그쪽과의 역할 분담은 한동안 명확히 나뉠 것으로 보입니다.
참고 자료
- Microsoft AI 공식 — Introducing MAI-Code-1-Flash
- CNBC — Microsoft unveils new AI models to lessen reliance on OpenAI and lower costs for developers (2026-06-02)
- Tom's Guide — Microsoft Build 2026 live blog
- Anthropic — Introducing Claude Haiku 4.5
- n8n AI Benchmark — Claude Haiku 4.5 official benchmark
- Let's Data Science — Microsoft launches MAI-Thinking-1 and MAI-Code-1-Flash models
본 글의 비교 측정값은 단일 개발자·7일·5종 과제·각 3라운드의 n=1 실측 로그입니다. 측정 시점은 모델 출시 1주차 시점으로, 모델 업데이트가 빠른 시기이니 핵심 수치는 본인 코드베이스에서 다시 확인하시길 권장합니다.

댓글
댓글 쓰기