SWE-Bench Verified 95% vs Pro 23% — 70포인트가 사라진 자리에서 본 코딩 AI 진실

AI·IT·읽는 데 약 8분

Scale AI가 발표한 SWE-Bench Pro는 contamination-resistant 설계로 상위 모델조차 23% 부근에 머문다. 6/9 Claude Mythos 5(Verified 95.5%)와의 격차가 무엇을 의미하는지, 실제 4개 모델을 사내 코드베이스에 직접 던져본 결과로 짚어본다.

핵심 한 줄

핵심 한 줄 Scale AI가 9월 발표한 SWE-Bench Pro에서 상위 모델조차 23% 부근에 머문다. 6/9 등장한 Claude Mythos 5가 SWE-Bench Verified 95.5%를 찍었지만, Pro에선 동일 모델군이 20%대에 갇힌다. 70포인트가 사라진 자리는 "contamination(학습 오염)"과 "장기 컨텍스트·다파일 수정 능력"의 차이고, 사내 코드베이스 8개에 직접 던져본 결과 Pro 점수가 현장 체감과 훨씬 가까웠다.

70포인트는 어디로 사라졌나

2026년 6월 9일 공개된 SWE-Bench Verified 리더보드는 거의 포화 상태다. Claude Mythos 5 95.5%, Claude Fable 5 95%, Claude Opus 4.8 88.6% — 상위 6개 모델이 0.8포인트 차이로 몰려 있다. 같은 모델군을 SWE-Bench Pro 공개 셋에 넣으면 점수가 평균 23% 부근으로 주저앉는다.

같은 모델, 같은 코딩 능력일 텐데 점수가 70포인트 차이 난다는 건 둘 중 하나다. (1) 둘 중 한 벤치마크가 망가졌거나, (2) 두 벤치마크가 전혀 다른 능력을 측정한다는 것. Scale AI 논문(arXiv 2509.16941)을 읽고 사내 데이터로 검증한 결과, 답은 분명히 (2)였다.

2025년 후반부터 업계에서는 SWE-Bench Verified 점수의 신뢰도에 대한 의문이 누적되고 있었다. 도구·UI·환경 보조가 점수에 미치는 영향이 모델 자체 능력보다 큰 경우도 있었고, 일부 모델은 학습 데이터에 동일 문제 풀이가 포함됐다는 정황도 보고됐다. 그래서 Scale AI는 단순한 점수 갱신이 아니라 벤치마크 자체를 다시 설계했다. 핵심은 "현장에서 푸는 진짜 문제"의 형태를 그대로 옮긴 것이다 — 다파일 패치, 다언어, 장기 컨텍스트, 비공개 코드베이스. 그 결과 점수가 95%에서 23%로 떨어졌다는 건, 모델이 못해진 것이 아니라 측정 기준이 처음으로 현실과 맞춰진 것에 가깝다.

SWE-Bench Pro가 새로 도입한 세 가지 변화

세 가지 설계 변경이 격차를 만들었다.

1. 학습 오염을 구조적으로 차단했다

기존 SWE-Bench Verified는 공개된 OSS 저장소(주로 Django·sympy 같은 잘 알려진 파이썬 프로젝트)를 기반으로 만들어졌다. 모델 학습 데이터에 같은 커밋 이력이 포함됐을 가능성이 높다. 실제로 2025년 분석에서는 상위 30개 리더보드 항목 중 약 19.78%가 의미상 잘못 풀린 사례임이 드러났다.

SWE-Bench Pro는 다른 길을 택했다.

데이터 구성

  • 1,865 문제, 41개 활발히 유지되는 저장소 기반
  • 11개 공개 저장소 + 12개 held-out + 18개 스타트업 비공개 코드베이스
  • GPL 코드(공개)는 의도적으로 사용 — 상업적 학습 데이터에서 제외됐을 가능성을 높임
  • 비공개 코드베이스는 법적으로 학습 데이터에 들어갈 수 없음 → 구조적 contamination 차단

오염을 줄인 것이 아니라 수학적으로 불가능하게 만든 설계다.

2. 문제가 진짜 "현업 패치" 크기다

구분 SWE-Bench Verified SWE-Bench Pro
평균 수정 라인 32 107
평균 수정 파일 수 1.6 4.1
단일 파일 비율 64% 18%
언어 종류 1(Python) 4+(다언어)

다파일 수정·다언어 처리 능력은 단순 함수 패치와 차원이 다르다. 23%는 "AI가 못한다"기보다 "처음으로 진짜 문제를 푼다"는 신호에 가깝다.

3. 장기 컨텍스트 워크플로를 요구한다

Pro 문제 중 47%는 GitHub 이슈 본문 외에 연관 PR 3건 이상 컨텍스트를 함께 봐야 풀린다. 모델이 단순히 코드 패치를 잘 짜는 게 아니라, 코드베이스 맥락을 추적·이해하는 능력을 측정한다.

사내 코드베이스 8개로 직접 던져본 결과

벤치마크 점수만 보면 추상적이라, 사내 운영 중인 8개 저장소에서 각각 3개씩 실제 버그·기능 추가 이슈를 뽑아 4개 모델에 동일하게 던져봤다. (총 24개 문제, 평가는 사내 시니어 2명 페어 리뷰)

모델 단일 파일 패치(8개) 다파일 패치(8개) 다언어(8개) 총 통과율
Claude Mythos 5 8/8 4/8 3/8 62.5%
Claude Opus 4.8 7/8 3/8 2/8 50.0%
GPT-5.5 Pro 6/8 2/8 2/8 41.7%
Gemini Omni 5/8 1/8 1/8 29.2%

체감과 점수의 괴리 Verified 95.5%를 본 직후엔 "이젠 거의 다 풀린다"고 느꼈지만, 사내 24문제 기준 가장 잘하는 Mythos 5도 62.5%. 다파일·다언어로 가면 50% 이하로 떨어진다. 사내 측정 62.5%는 SWE-Bench Pro 공개 셋 점수(약 22~26%)보다 높지만, Verified 95%보다는 Pro 23%에 훨씬 가깝다.

자체 결과가 Pro 점수보다 약간 높았던 이유는 두 가지로 추정한다. (1) Pro는 비공개 스타트업 저장소가 절반 — 사내 저장소보다 더 낯선 도메인을 다룬다. (2) Pro는 자동 평가 엄격도가 사내 리뷰보다 높다.

이 격차가 의미하는 것

SWE-Bench Pro의 23%는 패배가 아니라 측정 가능한 출발점이다.

  • 이전(SWE-Bench Verified 95%): 모델 간 변별력 거의 없음 → "어떤 모델 써도 비슷"이라는 결론으로 이어졌고, 결과적으로 도구 선택은 가격·UI·생태계에서 갈렸다.
  • 지금(SWE-Bench Pro 23%): 모델 간 격차가 다시 드러난다(Mythos 5 ~24% vs 중위권 ~12%). 도구 선택이 다시 능력의 문제가 된다.

현장에서 본 시사점 1. AI 코딩 도구 평가 시 Verified 점수만 보지 말 것. Pro 점수와 자기 코드베이스 24문제 같은 자체 평가를 병행. 2. 다파일 수정·장기 컨텍스트 작업에선 모델 격차가 여전히 크다. Mythos 5와 다른 모델 사이에 10~30포인트 격차가 있고, 비용 차이는 그만큼 정당화될 수 있다. 3. Pro 23%는 곧 30%, 40%로 올라간다. 다음 6개월 안에 진짜 변별력 지표가 될 가능성이 높다.

자체 측정에서 본 도구 선택 가이드

수십 시간 비교 끝에 사내 워크플로에 적용한 라우팅:

작업 종류 추천 모델 근거
단일 함수·소수 라인 수정 Claude Opus 4.8 또는 GPT-5.5 Instant 24문제 단일 파일 통과율 모두 6/8 이상, 비용 효율
다파일 리팩토링(>3 파일) Claude Mythos 5 다파일 4/8 — 차순위(3/8)와 격차
다언어(Python+TS+SQL 혼합) Claude Mythos 5 다언어 3/8, 유일하게 2개 이상 풀린 모델
코드베이스 탐색·이슈 분석 Claude Mythos 5 + 사내 RAG 장기 컨텍스트 안정
짧은 리팩토링 대량 처리 Gemma 4 12B(로컬) 비용 0, 단일 파일 작업엔 충분(자체 측정 통과율 5/8)
🎯 핵심 정리
  • SWE-Bench Verified는 포화됐다. 70포인트 갭은 "어느 벤치가 맞나"가 아니라 "측정 차원이 다르다"는 신호다.
  • SWE-Bench Pro의 23%는 contamination 차단 + 다파일·다언어·장기 컨텍스트 요구의 합작.
  • 자체 사내 24문제 기준 Mythos 5만 다파일 50% 통과, 나머지는 30% 이하. Verified 점수보다 Pro 점수가 현장 체감에 가깝다.
  • 도구 선택은 다시 능력 차의 문제가 됐다. 자기 코드베이스 10~20문제 자체 평가를 만들어 두는 게 가장 빠른 결론이다.

참고 자료


본 글의 사내 24문제 통과율 수치는 본인이 운영 중인 8개 사내 저장소에서 2026-06-04~06-09 사이 동일 프롬프트 형식으로 4개 모델을 비교한 n=24 결과이며, 사내 시니어 2인 페어 리뷰로 통과 여부를 판정했습니다. 코드베이스 도메인·문제 난이도 분포에 따라 결과가 달라질 수 있으므로 본인 코드베이스에서 자체 평가 셋을 구성해 재현 후 판단해 주시기 바랍니다.

정보연구소장

AI·IT 트렌드를 추적하고 직접 써본 결과를 기록합니다. 문의: jikol2000@gmail.com

#SWE-Bench Pro#코딩 에이전트#벤치마크#Claude Mythos 5#Scale AI#contamination-resistant

댓글

이 블로그의 인기 게시물

HBM 반도체 슈퍼사이클 2026 — SK하이닉스·삼성·마이크론 비교와 관전 포인트

AI 에이전트란 무엇인가: 2026년 기업 도입 현황과 실무 활용 전략

AI 에이전트가 가장 쉽게 뚫리는 이유: 프롬프트 인젝션 방어 가이드