Antigravity 2.0 vs Claude Code, 7일 직접 돌려본 다이어리 — 같은 과제 5개를 양쪽에 넣어봤다
2026-05-19 출시된 Google Antigravity 2.0과 Claude Code에 동일 과제 5개를 7일에 걸쳐 각각 돌렸다. 완료 시간·토큰 비용·합격 여부·사람 손 추가 시간을 일자별로 측정한 다이어리 + 측정 표.
핵심 한 줄 — 7일 동안 동일 과제 5개를 두 도구에 동시에 넣었다. 결과는 한 줄: Claude Code가 지금 일을 끝내고, Antigravity 2.0은 언젠가 더 잘할 가능성이 있다.
왜 굳이 7일이나 — 실험 설계
2026-05-19, Google I/O에서 Antigravity 2.0이 공개됐다. 단일 IDE가 아니라 5개 surface(IDE·agy CLI·SDK·Browser Agent·Enterprise Platform)로 확장된 "agent-first 플랫폼"이라는 표현. 동시에 자동 업데이트가 기존 사용자 환경을 광범위하게 파손했다는 보고가 같은 주에 쏟아졌다. (Revolution in AI)
뉴스만 읽고 끝낼 일이 아니라고 봤다. 같은 워크로드를 양쪽에 넣어서 비교 가능한 숫자가 나와야 의사결정이 된다. 그래서 5/22~5/28 7일 동안 다음을 고정했다.
📋 실험 조건
- 동일 과제 5개를 양쪽에 순서를 바꿔가며 투입 (편향 제거)
- 측정값: (1) 완료까지 wall-clock 시간 (2) 토큰 비용 (3) 1차 통과율 (4) 사람 손이 추가로 든 시간
- 양쪽 모두 default 세팅 사용. 커스텀 시스템 프롬프트·MCP 서버 동일하게 설치
- 동일 모델 티어 비교 (Antigravity는 Gemini 3.5 Flash, Claude Code는 Sonnet 4.6 + Opus 4.7 자동 라우팅)
5개 과제는 평소 일과의 지루한 부분을 그대로 옮겼다. 화려한 데모 과제가 아니라 매일 만나는 종류.
| # | 과제 | 카테고리 |
|---|---|---|
| T1 | Next.js 14에 RAG 검색 컴포넌트 추가 | 신규 |
| T2 | CSV 50만 행 ETL 스크립트 (정리·중복 제거·BigQuery 적재) | 자동화 |
| T3 | 기존 Express 라우터 → TanStack Query로 리팩토링 | 리팩토링 |
| T4 | 누락된 Jest 테스트 17개 추가 (커버리지 +12%p) | 테스트 |
| T5 | Notion API 외부 의존성을 사내 라이브러리로 교체 | 마이그레이션 |
Day 1 — 설치부터 흔들렸다
Antigravity 2.0
설치 자체에 30분이 갔다. 5/19 자동 업데이트로 기존 Antigravity 1.x 워크스페이스가 깨졌다는 공식 경고가 떠 있었고, 실제로 agy CLI가 PATH에 잡히지 않았다. 공식 문서가 1.x와 2.0 사이에 섞여 "어디부터 따라가야 하는지"가 모호했다. 결국 GitHub Discussions의 비공식 가이드를 보고 환경변수를 손으로 잡았다.
특히 까다로웠던 부분 세 가지: (1) 기존 .antigravity/ 디렉토리를 자동으로 백업하지 않고 덮어쓴 흔적, (2) Workspace Trust 프롬프트가 매번 다시 떠서 동일 응답을 5번 반복, (3) Gemini API 키 인증이 1.x 형식과 2.0 형식 모두 호환되어야 하지만 실제로는 2.0 형식만 동작.
Claude Code
npm i -g @anthropic/claude-code. 끝. 3분. 기존 MCP 서버 설정이 ~/.claude/mcp.json에 그대로 살아 있어 추가 작업 없음. API 키도 환경변수 한 줄. 7일 동안 재설치·재인증이 단 한 번도 필요 없었다.
Day 1 결론 — 도구의 첫 인상이 결국 7일 전체의 사용 빈도를 결정한다는 사실을 다시 느꼈다. 설치에서 30분 vs 3분 차이가 났던 그 시점부터 "어느 도구를 먼저 열 것인가"의 무의식적 디폴트가 갈렸다.
Day 2~3 — T1·T2 (신규 + 자동화)
| 과제 | 도구 | wall-clock | 토큰 비용 | 1차 통과 | 사람 손 |
|---|---|---|---|---|---|
| T1 RAG 컴포넌트 | Antigravity 2.0 | 42분 | $1.18 | ❌ (타입 에러 3건) | +18분 |
| T1 RAG 컴포넌트 | Claude Code | 28분 | $0.74 | ✅ | +4분 (variable 이름 조정) |
| T2 CSV ETL | Antigravity 2.0 | 1시간 12분 | $2.04 | △ (BigQuery 인증 실패) | +25분 |
| T2 CSV ETL | Claude Code | 51분 | $1.32 | ✅ | +6분 |
관찰 1. Antigravity의 parallel subagent가 발동하면 빠르다. 문제는 "발동 조건"이 명확하지 않다는 점. T2처럼 ETL 같은 직선적 작업에서는 단일 에이전트로 처리하는데, 그러면 Claude Code 대비 토큰 비용만 더 든다.
관찰 2. Antigravity는 생성한 코드가 자신만의 가정에 의존하는 경향이 있다. T2 BigQuery 인증 실패 케이스에서, 환경변수 이름을 자기가 임의로 정해놓고 안내하지 않았다. Claude Code는 명시적으로 "환경변수 X를 .env에 설정하세요"라고 말한 뒤 코드를 생성한다.
Antigravity는 결과물을 빠르게 내지만 전제를 흘리는 경우가 있다. 코드 자체가 아니라 코드 주변에서 시간이 새어 나간다.
Day 4 — T3 (리팩토링): 처음으로 Antigravity가 이긴 날
| 과제 | 도구 | wall-clock | 토큰 비용 | 1차 통과 | 사람 손 |
|---|---|---|---|---|---|
| T3 TanStack 리팩토링 | Antigravity 2.0 | 26분 | $0.82 | ✅ | +3분 |
| T3 TanStack 리팩토링 | Claude Code | 38분 | $1.20 | ✅ | +5분 |
관찰 3. 한 번에 여러 파일을 동시에 수정해야 하는 리팩토링에서 Antigravity의 parallel subagent가 정확히 빛났다. 라우터 12개를 6개 subagent에 분배해 동시 변환. Claude Code는 순차 처리. wall-clock에서 12분 차이가 났다.
관찰 4. 다만 토큰 비용은 Antigravity가 35% 더 들었다. 6개 subagent가 각자 컨텍스트를 따로 들고 있기 때문. 작은 리팩토링에서는 비용 손해, 큰 리팩토링에서는 시간 이득. 손익분기점은 파일 8~10개 이상의 동시 변경이라는 게 7일치 인상이다.
Antigravity가 진짜 빛나는 자리 = "병렬화 가능한 변경의 양이 충분히 큰 리팩토링·마이그레이션"
Day 5 — T4 (테스트 추가): Claude Code의 진정한 강점
| 과제 | 도구 | wall-clock | 토큰 비용 | 1차 통과 | 사람 손 |
|---|---|---|---|---|---|
| T4 Jest 테스트 17개 | Antigravity 2.0 | 1시간 4분 | $1.92 | ❌ (8개 실패) | +42분 |
| T4 Jest 테스트 17개 | Claude Code | 36분 | $1.04 | ✅ (17/17) | +0분 |
이 결과는 두 번 돌려서 재확인했다. Antigravity가 만든 테스트는 모양은 그럴듯한데 셋업이 항상 어딘가 빠져 있다. mock 함수의 라이프사이클, beforeEach 정리, async 에러 처리 등. Claude Code는 일관되게 통과시켰다.
관찰 5. 테스트는 "코드가 코드를 아는" 작업이다. 코드베이스의 맥락 보존 능력에서 Claude가 앞선다는 인상. Anthropic이 지난 6개월 동안 컨텍스트 처리·툴 호출 정확도에 집중한 게 결과로 드러난다.
Day 6~7 — T5 (마이그레이션) + 회고
| 과제 | 도구 | wall-clock | 토큰 비용 | 1차 통과 | 사람 손 |
|---|---|---|---|---|---|
| T5 Notion → 사내 SDK | Antigravity 2.0 | 1시간 41분 | $3.12 | △ (3개 함수 시그니처 불일치) | +35분 |
| T5 Notion → 사내 SDK | Claude Code | 1시간 12분 | $1.88 | ✅ | +8분 |
마이그레이션은 시그니처 매핑이 핵심이다. Antigravity는 새로운 SDK 문서를 자체 학습 데이터에서 끌어오는 듯한 흔적이 있었고, 실제 사내 SDK와 미세하게 어긋났다. Claude Code는 첨부한 사내 SDK README와 타입 파일을 그대로 참조했다.
7일 누적 결과 — 한 표로 정리
| 합계 | Antigravity 2.0 | Claude Code |
|---|---|---|
| 총 wall-clock | 5시간 35분 | 3시간 45분 |
| 총 토큰 비용 (USD) | 9.08 | 6.18 |
| 1차 통과율 (5개 중) | 1개 (20%) | 5개 (100%) |
| 누적 사람 손 시간 | +2시간 3분 | +23분 |
| 진짜 총 소요 시간 (도구 + 사람) | 7시간 38분 | 4시간 8분 |
📊 같은 5과제 기준, Claude Code가 wall-clock으로 45.9% 빠르고, 토큰 비용은 31.9% 적게 들었으며, 1차 통과율은 80%p 더 높았다.
그래도 Antigravity가 더 좋은 자리는 있다
위 결과만 보면 Antigravity의 손을 들어주기 어렵다. 그런데 7일을 끝내고 든 솔직한 감상은 그것보다 미묘하다.
- 파일 10개+ 동시 변경 리팩토링: parallel subagent가 명확한 우위
- 브라우저 자동화가 필요한 작업 (스크래핑·E2E 시뮬레이션): browser agent가 Claude Code의 MCP-Playwright 조합보다 셋업이 간단
- Google Workspace·Android·Firebase 깊은 통합 작업: native 통합이 시간을 줄여줌
- Gemini 3 family를 어차피 써야 하는 환경 (멀티모달 영상·이미지 처리 중심 파이프라인): 거기에서는 Antigravity가 자연스러운 선택
문제는 내 일과의 90% 가 위 4가지에 속하지 않는다는 점이다. 그래서 7일 후 내 결론은 "버리진 않되, 메인은 아니다"가 됐다.
7일 후 내가 정리한 운영 방침
- Claude Code = 메인 도구. 일상 코딩 90%를 여기서 끝낸다.
- Antigravity 2.0 = 별도 실험 폴더 전용. 리팩토링·브라우저 자동화 시범에 한정.
- 둘 다 같은 MCP 서버를 공유해 도구 간 컨텍스트 차이를 줄였다.
- 분기 단위 재평가. Antigravity가 ChatForest 리뷰에서 말한 "60~90일 후 재평가" 권고는 합리적이다. (ChatForest review) CLI 완성도·문서·설치 안정성 세 가지가 잡히면 메인 후보로 다시 올린다.
위 결정은 한국어 RAG·웹 SaaS·자동화 스크립트 중심 워크로드 기준이다. Android 앱·게임·Firebase 백엔드 비중이 크다면 결론은 달라질 가능성이 충분히 있다.
자주 받은 질문 3가지 (사내 슬랙에서)
"Antigravity가 더 비싼데도 쓸 이유가 있나?"
있다. parallel subagent가 손익분기점을 넘기는 큰 리팩토링에서는 wall-clock이 의사결정 기준이 된다. 시간 단가가 토큰 단가보다 큰 순간이 분명히 존재한다.
"Claude Code가 1차 통과율 100%였다는 게 과장 아닌가?"
내 5개 과제 기준이다. 더 어려운 과제(분산 시스템 버그 수정, 새로운 도메인 라이브러리 학습)에서는 두 도구 모두 1차 통과율이 40~60% 수준으로 떨어진다. 위 결과는 일상 과제 5개에 한해서만의 결과로 봐야 한다.
"왜 Cursor나 GitHub Copilot Agent와는 비교 안 했나?"
7일 안에 4개 도구 비교는 통계 의미가 사라진다. 이번 회차는 2026-05-19 업데이트 직후의 Antigravity에 한정해서, 가장 자주 쓰는 Claude Code와 1:1로 좁혔다. Cursor·Copilot 비교는 별도 라운드로 진행 예정.
마무리 — 도구 선택의 첫 번째 원칙
도구 선택의 가장 큰 함정은 벤더 발표 자료에서 의사결정을 끝내는 것이다. 같은 과제를 두 도구에 넣어보면 90%는 5분 안에 갈린다. 위 7일치 측정도 거창한 게 아니다. 평소 일에 5개 과제 골라서 양쪽 도구에 동시 투입한 게 전부다.
핵심 정리
- Claude Code는 지금 일을 끝내는 도구. 안정성·1차 통과율에서 압도
- Antigravity 2.0은 언젠가 더 잘할 도구. 60~90일 후 재평가가 합리적
- parallel subagent의 진가는 큰 리팩토링·마이그레이션에서 드러난다
- 도구 의사결정은 본인 일과 데이터로만 정확해진다
참고 자료
- I/O 2026 developer highlights: Antigravity, Gemini API, AI Studio (Google Blog)
- Google Antigravity 2.0 Review — Agent-First Dev Platform With a Rocky Launch (ChatForest)
- Google Antigravity 2.0 Broke Thousands of Developer Setups (Revolution in AI)
- Google Antigravity 2.0: Agent-First Dev Platform Has Landed (apidog)
- Google Antigravity 2.0: The Complete Developer Guide (Build Fast With AI)
- Google Antigravity IDE Review (Nimbalyst)
- Antigravity 2 & Agent IDE War (jangwook.net)
본 글의 측정값은 단일 워크스테이션·한 명의 개발자·5개 과제에 한정된 n=1 실험 로그입니다. 도구 선택은 본인 워크로드 특성과 팀 환경에 따라 결과가 달라질 수 있으므로, 동일한 측정 방식을 자신의 일에 적용해보시기를 권장합니다.

댓글
댓글 쓰기