SubQ 12M 토큰: 트랜스포머 어텐션이 '깨졌다'는 말의 진짜 무게

LLM·아키텍처·읽는 데 약 10분

Subquadratic이 5월 5일 공개한 SubQ는 12M 토큰을 선형 비용으로 처리한다고 주장한다. SSA 아키텍처의 의미, RULER 128K 95% 성적의 무게, 그리고 1,000x 비용 절감 주장이 한국 개발자의 일상에 의미하는 것까지 분석 에세이로 풀었다.

핵심 한 줄

핵심 한 줄 — 12M 토큰을 선형 비용으로 돌린다는 SubQ의 주장이 사실이면, 'long context vs RAG' 논쟁의 무게중심이 long context 쪽으로 한 단계 이동한다. 다만 아직 자체 벤치마크뿐이라 환호와 유보를 동시에 들고 있어야 한다.

발단 — 왜 12M 토큰이 사건인가

2026년 5월 5일, Subquadratic이라는 신생사가 $29M 시드 라운드 발표와 함께 SubQ를 공개했다. 헤드라인 숫자는 두 가지였다. 첫째, 리서치 모델 기준 컨텍스트 윈도우 1,200만 토큰. 둘째, 풀가동 시 프런티어 모델 대비 컴퓨트 약 1,000배 감소. CEO Justin Dangel과 CTO Alexander Whedon(전 Meta GenAI 헤드)이 이끄는 팀이다.

이 숫자가 왜 사건인지 이해하려면 트랜스포머의 오래된 흉터부터 봐야 한다. 자기-어텐션은 시퀀스 길이 n에 대해 O(n²) 연산과 메모리를 요구한다. n이 1만 토큰일 때와 100만 토큰일 때, 연산량은 10,000배 차이다. 그래서 산업이 '100만 컨텍스트'를 광고해도 실제 가격표는 늘 같은 모양이었다. 길수록 거의 제곱으로 비싸진다.

이 한계를 푸는 방법은 보통 두 갈래다. (a) attention sparsity — 모든 토큰 쌍을 보지 않고 일부만 본다. (b) state-space / linear attention — Mamba 계열처럼 시퀀스를 다른 방식으로 인코딩한다. 두 갈래 모두 학계에서는 오래 연구되었지만, '프런티어 수준 성능'을 검증받은 상업 모델은 없었다.

SubQ는 그 빈자리를 노렸다고 말한다.

아키텍처 — SSA, 사전학습이 sparsity를 결정한다

SubQ가 내세우는 핵심 기술의 이름은 SSA(Subquadratic Selective Attention)다. 회사 표현을 정리하면, 학습 가능한 sparsity가 핵심이다. 사전학습 단계에서 모델이 어떤 토큰 관계가 중요한지 직접 학습한다. 추론 시점에는 그렇게 학습된 sparsity 패턴을 따라 attention 비용이 선형으로 확장된다는 주장이다.

비유 — '모든 단어가 모든 단어에게 인사하는 칵테일파티' 대신 '학습된 친구 명단만 보는 비즈니스 미팅'에 가깝다. 명단을 얼마나 잘 짰는지가 모든 것을 결정한다.

수치로 보면 차이가 더 극적이다. 1M 토큰 컨텍스트에서 SubQ의 어텐션은 FlashAttention 대비 약 52배 빠르다고 보고됐다. FlashAttention 자체가 메모리·속도 최적화의 사실상 표준이 된 GPU 커널이라는 점을 생각하면, 같은 GPU에서 같은 길이를 돌리는 단순 비교에서 50배는 무시할 숫자가 아니다.

다만 '학습된 sparsity'는 양날의 칼이다. 잘 못 배운 sparsity는 long context에서 흔히 일어나는 '바늘 찾기' 실패의 원인이 된다. 즉 100만 토큰 어딘가에 묻혀 있는 한 줄을 놓치는 사례 말이다. 그래서 다음 절의 벤치마크 점수가 더 중요해진다.

벤치마크 — 95%, 81.8%, 그리고 가격표

SubQ 측이 공개한 자체 벤치마크는 거칠게 세 줄로 요약된다.

  • RULER 128K: 95.0% (Claude Opus 94.8% 수준에 근접)
  • MRCR v2 (multi-needle retrieval, 1M): 65.9% (Gemini 3.1 Pro 23%, GPT-5.4 39% 보고)
  • SWE-Bench Verified: 81.8% (Opus 4.6 81.4%, Gemini 3.1 Pro 80.6%와 같은 동급)

그리고 같은 RULER 128K 한 번 돌리는 비용을 SubQ는 약 $8, Opus는 약 $2,600으로 비교했다. 같은 작업에서 300배 가까운 비용 차다.

주의 — 위 점수는 모두 회사 자체 보고다. 외부 평가팀의 독립 검증은 아직 공개되지 않았다. 자체 학습 데이터에 벤치마크 분포가 새어 들어갔는지(data contamination)도 확인 불가다.

특히 MRCR v2에서 보고된 격차(SubQ 65.9% vs Gemini 3.1 Pro 23%)는 의심을 부추긴다. Gemini 3.1 Pro는 자체 평가에서 long context 시나리오에 강하다고 알려진 모델이다. 격차가 너무 크면, 그 격차는 둘 중 하나다. (a) SSA가 진짜로 다음 표준이거나 (b) 측정 방식이 너무 다르거나. 어느 쪽인지는 독립 평가가 나와봐야 안다.

1차 데이터 — 월 1,000만 토큰 워크로드 자체 시뮬레이션

분석만 늘어놓으면 추상적이라, 한국 팀이 마주칠 만한 시나리오로 가격을 직접 계산해봤다. 가정은 단순하다.

  • 월 1,000만 토큰의 long-context 작업 (입력 95%, 출력 5%)
  • 평균 컨텍스트 길이 80만 토큰
  • 공개 가격: GPT-5.5 $2.25/Mtok input, Gemini 3.1 Flash-Lite $0.25/Mtok input, Claude Opus 4.6 $15/Mtok input (직전 공개 단가 기준)
  • SubQ는 공개 가격이 없어, RULER 128K 비용 비율($8 vs $2,600)을 보수적으로 적용해 Opus 단가의 약 1/100을 추정값으로 사용

자체 추정 월 비용 비교 표 (입력 950만 + 출력 50만 토큰 기준)

모델 입력 단가 ($/Mtok) 입력 비용 출력 단가 ($/Mtok) 출력 비용 월 합계
GPT-5.5 2.25 $21.4 18.0 $0.9 $22.3
Gemini 3.1 Flash-Lite 0.25 $2.4 1.0 $0.05 $2.5
Claude Opus 4.6 15.0 $142.5 75.0 $3.75 $146.3
SubQ (추정) 0.15 $1.4 0.6 $0.03 $1.5

표는 공개되지 않은 SubQ 단가를 RULER 비용 비율로 역산한 추정이다. 실제 베타 단가가 다르면 표 전체가 흔들린다. 또 평균 컨텍스트 80만 토큰 가정 자체가 long context 전용 워크로드(코드베이스 1패스 분석 등)에 편향돼 있다.

흥미로운 지점은 'Opus급 정확도'와 'Gemini Flash-Lite급 가격'을 동시에 가져간다는 시나리오가 가능해진다는 것이다. 진짜라면 이건 단순 가격 인하가 아니라 가격-품질 파레토 곡선의 이동이다. 'RAG로 잘게 잘라야만 했던' 종류의 작업이 'long context로 그냥 던지는' 작업으로 바뀐다는 의미다.

12M 컨텍스트가 바꿀 워크플로 네 가지

가격 시뮬레이션이 옳다는 전제로, 실제 어떤 작업이 다시 그려질 수 있는지 정리하면 이렇다.

  1. 코드베이스 1패스 분석 — SubQ Code(CLI agent)는 리포 전체를 한 번에 로드하는 걸 디자인 원칙으로 내세웠다. 모노레포 전체를 한 번에 보고 리팩터 제안을 받는 워크플로가 가격 부담 없이 가능해진다.
  2. 장문 법률·금융 문서 통째 처리 — 1,000페이지짜리 IPO 자료를 RAG 없이 한 번에 보고 모순점을 찾는다.
  3. 장기 에이전트 상태 보존 — 며칠치 대화 로그·툴 호출 기록을 그대로 프롬프트에 유지. Memory Bank·세션 외부화의 필요성이 약해질 수 있다.
  4. 연구 노트·논문 묶음 분석 — 한 분야의 최근 100편 논문을 한 컨텍스트에 던지고 메타 분석을 직접 시킨다.

물론 네 가지 모두 '정확도가 long context 끝까지 유지된다'는 전제에서만 가능하다. 그래서 MRCR v2 점수의 신뢰성이 중요하다.

회의론 — 잊지 말아야 할 다섯 가지

text
1. 자체 보고 벤치마크. 외부 독립 평가 부재
2. 12M은 리서치 모델, 공개 API는 1M (Private beta)
3. Technical report·가중치 미공개
4. 데이터 contamination 여부 확인 불가
5. SLA, 한국 리전, 데이터 정책 일체 미공개

특히 다섯 번째는 한국 엔터프라이즈에는 실무적 장벽이다. 모델이 아무리 싸고 빨라도 데이터가 어디 리전을 거치는지, 학습에 쓰이는지, GDPR/PIPA 호환이 되는지 답이 없으면 도입은 멀다. Subquadratic은 시드 단계 스타트업이고 이런 인프라 답을 갖추는 데는 시간이 걸린다.

핵심 정리

핵심 정리

  • SubQ는 트랜스포머 어텐션의 O(n²) 한계를 SSA(학습된 sparsity)로 우회한다고 주장한다
  • 자체 벤치마크는 강력하나 모두 self-report. 독립 평가가 나와야 진짜 의미를 안다
  • 추정 가격 시나리오에서 'Opus급 정확도 + Flash-Lite급 가격'이 가능해진다. 진짜라면 long context 작업의 단가 곡선이 바뀐다
  • 한국 도입 시 SLA·리전·데이터 정책 부재가 당분간 가장 큰 실무 장벽

마무리 — 기대와 유보 사이

서브쿼드라틱 어텐션 자체는 새 발상이 아니다. Performer, Longformer, Mamba 같은 이전 시도들이 학계에서 길게 검증되어 왔다. SubQ가 다른 점은 두 가지다. 첫째, 처음으로 프런티어급 일반 벤치마크 점수를 동반해서 등장했다는 점. 둘째, 단순 demo 모델이 아니라 SubQ Code 같은 응용 제품과 함께 공개됐다는 점.

그래서 흥분하기에는 충분하고, 도입을 결정하기에는 이르다. 한국 팀이 지금 당장 할 일은 두 가지로 좁혀진다. 첫째, Private beta access를 신청해 자체 워크로드로 실측을 잡아보는 것. 둘째, 동시에 RAG·전통 long-context 백업 옵션을 유지해 한 아키텍처에 베팅하지 않는 것.

핵심 한 줄

'깨졌다'는 표현은 절반만 맞다. 트랜스포머의 비용 곡선에 균열이 생긴 건 사실이지만, 깨진 조각이 얼마나 멀리 날아갈지는 다음 분기의 독립 평가가 결정한다.

참고 자료


이 글의 비용 시뮬레이션 표는 공개되지 않은 SubQ 단가를 RULER 128K 보고 비용 비율로 역산한 추정치를 포함합니다. 실제 베타 단가, 워크로드 구성, 사용 리전에 따라 수치는 크게 달라질 수 있으며 특정 모델 도입을 권유하는 글이 아닙니다.

정보연구소장

AI·IT 트렌드를 추적하고 직접 써본 결과를 기록합니다. 문의: jikol2000@gmail.com

#LLM#SubQ#Subquadratic#long-context#어텐션#아키텍처

댓글

이 블로그의 인기 게시물

HBM 반도체 슈퍼사이클 2026 — SK하이닉스·삼성·마이크론 비교와 관전 포인트

AI 에이전트란 무엇인가: 2026년 기업 도입 현황과 실무 활용 전략

AI 에이전트가 가장 쉽게 뚫리는 이유: 프롬프트 인젝션 방어 가이드