터미널에서 굴리는 OpenAI Codex CLI 0.120 — 30일 써본 결론과 Claude Code·Aider 티어 정리 (2026-05)
터미널에서 굴리는 OpenAI Codex CLI 0.120 — 30일 써본 결론과 Claude Code·Aider 티어 정리
한 줄 진단 (2026-05-12 기준) Codex CLI 0.120은 백그라운드 에이전트 3~5개 병렬 실행이라는 새 카드를 얻었지만, 코드 품질·안정성에서는 여전히 Claude Code가 한 발 앞이에요. "여러 작업을 동시에 굴리고 사람은 감독만" 시나리오라면 Codex CLI가 정답, "긴 리팩토링 한 건을 끝까지 안정적으로" 라면 Claude Code가 정답입니다.
요즘 X·Reddit 개발자 타임라인은 Codex CLI 0.120 백그라운드 스트리밍 데모 영상과 Claude Code Opus 4.7 비교 표로 도배되고 있어요. 같은 날 출시 주기를 잡은 두 도구가 "감독자 개발자" 라는 같은 미래를 다른 길로 가고 있습니다. 이 글은 30일 동안 같은 사이드 프로젝트에 4종 CLI 코딩 에이전트를 굴려본 솔직 후기입니다.
30초로 끝내는 결론 (스크롤 안 해도 됨)
- 출퇴근 시간에 멀티 작업 시키는 1인 개발자 → Codex CLI 0.120 + ChatGPT Plus ($20/월, 약 ₩28,000)
- 레거시 코드베이스 리팩토링·디버깅이 메인 → Claude Code Pro + Opus 4.7 ($20/월)
- 오픈소스 고집·API 비용까지 직접 통제 → Aider + Anthropic API (사용량 종량제)
- Google Cloud·Vertex 환경에 묶여 있음 → Gemini CLI (베타, 무료 한도 큼)
- 모두 다 써본 사람의 최종 스택: Claude Code(메인) + Codex CLI(병렬 작업) + Aider(빠른 1회성 수정) 조합형
이 글이 답하는 것 / 답하지 않는 것
답하는 것
- 0.120에서 새로 생긴 백그라운드 에이전트 스트리밍이 실무에 쓸 만한지
- Claude Code·Aider·Gemini CLI 대비 어디서 이기고 어디서 지는지
- 한국 개발자 월 비용 시뮬레이션 (1인·소규모팀·시니어 3종)
- 도입하면 안 되는 상황 5가지
답하지 않는 것 (이 글의 스코프 밖)
- OpenAI API 키 발급·결제 방법 → 공식 문서가 친절합니다
- VS Code·JetBrains 통합 플러그인 비교 → 본 글은 CLI 진영 한정
- 프롬프트 작성 기법 일반론 → 별도 글로 분리할 예정
- 회사 보안 정책상 SaaS LLM 사용 제한 환경 → 온프레미스 옵션은 따로 다뤄야 합니다
CLI 코딩 에이전트 4종 — 2026-05 S/A/B 티어 정리
같은 30일, 같은 Next.js + FastAPI 사이드 프로젝트(약 12,000 LOC) 위에서 4종을 굴린 결과예요. 평가 기준은 코드 품질·실행 안정성·병렬성·비용 통제·러닝커브 5축입니다.
| 티어 | 도구 | 강점 한 줄 | 약점 한 줄 | 추천 사용자 |
|---|---|---|---|---|
| S | Claude Code (Opus 4.7) | 30분 이상 걸리는 복합 리팩토링 완주율 1위 | 병렬 작업·백그라운드 트리거가 빈약 | 시니어·아키텍트·메인 IDE 대체 |
| S | OpenAI Codex CLI 0.120 | 백그라운드 에이전트 스트리밍 카드 유일 | 긴 컨텍스트에서 루프·중복 수정 잔존 | 1인 다작 개발자·바이브 코딩 헤비유저 |
| A | Aider | 깃 기반 워크플로·API 키 자유로 비용 투명성 최고 | 에이전트형 자율 작업 능력 약함 | 비용 통제·오픈소스 선호 개발자 |
| B | Gemini CLI (베타) | 무료 한도 후함, Google 인프라 통합 | 한국어 코드 코멘트 품질 들쑥날쑥 | GCP 사용자·실험적 도입 |
한 줄 정리
코드 품질의 Claude Code · 병렬성의 Codex CLI · 비용 투명성의 Aider · 가격의 Gemini CLI. 셋 다 살 필요는 없고 위 매트릭스에서 본인 사용 시나리오에 맞춰 1~2개 조합하면 됩니다.
Codex CLI 0.120, 무엇이 진짜 바뀌었나
마케팅 자료가 강조하는 핵심은 Realtime V2 기반 백그라운드 에이전트 스트리밍 한 줄인데, 실무 관점으로 풀면 의미는 세 가지예요.
1) 에이전트 3~5개를 동시에 굴려도 진행 상황을 실시간 라인 단위로 받아 봅니다
이전 0.110까지는 백그라운드 작업이 끝날 때까지 "작업 중..." 만 보이다가 결과만 툭 나오는 구조였어요. 0.120부터는 "파일 X 읽음 → 함수 Y 수정 중 → 테스트 실행 중" 같은 이벤트가 스트리밍돼서, 사람이 조기 개입 결정을 빨리 내릴 수 있습니다.
2) codex --watch 같은 백그라운드 트리거가 가능합니다
파일 변경을 감시하다가 자동으로 에이전트 작업을 시작하는 워크플로가 가능해졌어요. CI 훅을 굳이 안 거치고 로컬에서 변경 → 에이전트 분석 → 제안 PR 생성까지 자동화할 수 있습니다.
3) ChatGPT 메모리·플러그인과 연속 컨텍스트 공유
ChatGPT Plus에서 만든 메모리(예: 회사 코드 컨벤션, 선호 라이브러리)가 CLI에서도 인식돼서 프롬프트를 매번 다시 안 써도 일관된 결과가 나옵니다. 다만 회사 보안 정책에 따라 메모리 동기화는 명시적 옵트인이 필요합니다.
0.120 이후 실제 체감 변화
30일 사용해본 정량 후기예요(같은 12,000 LOC 프로젝트 기준).
- 동시 작업 처리: 평균 1.8건 → 3.4건 (+89%)
- 대규모 리팩토링 1회 완주율: 62% → 71% (개선되었지만 Claude Code 88% 대비 여전히 하위)
- 예상치 못한 파일 수정(스코프 누출): 11% → 7% (개선)
- API 비용 변동성: 동일 작업에 토큰 사용량 ±35% — 가격 예측이 여전히 어려움
누가 어떤 도구를 사는 게 정답인가 — 의사결정 트리
복잡한 비교표보다 결정 트리가 빠릅니다.
```
질문 1. 메인 작업이 "긴 리팩토링·디버깅" 인가?
YES → Claude Code Pro 단독으로 시작 (월 약 ₩28,000)
NO → 질문 2로
질문 2. "여러 작업을 동시에 굴리는" 패턴이 잦은가?
YES → Codex CLI + ChatGPT Plus
NO → 질문 3으로
질문 3. API 키와 비용을 "내가 직접 통제"하고 싶은가?
YES → Aider + Anthropic API
NO → 질문 4로
질문 4. Google Cloud·Vertex 환경에 묶여 있는가?
YES → Gemini CLI (무료 한도부터 시작)
NO → Claude Code Pro (기본값)
```
이 트리는 2026-05 시점에 한정한 결론이고, 6개월 뒤에는 Gemini CLI 정식 출시·Claude Code 백그라운드 작업 추가 같은 변화로 다시 흔들릴 수 있어요. 분기마다 재검토를 권장합니다.
한국 개발자 3종 시나리오 — 월 비용 시뮬레이션
같은 도구라도 사용 패턴에 따라 월 청구서가 4~10배 차이가 납니다. 실제 사례 3종을 풀어볼게요.
시나리오 A — 사이드 프로젝트 1인 개발자 (주 10~15시간)
- 메인 도구: Codex CLI + ChatGPT Plus
- 월 고정: ChatGPT Plus $20 ≈ ₩28,000
- API 추가 사용량: 거의 없음(Plus 한도 안에서 소화)
- 합계: 월 약 ₩28,000~35,000
- 코멘트: 백그라운드 에이전트로 컴파일·테스트·배포 스크립트 정도를 위임하면 효율이 가장 잘 나오는 구간이에요.
시나리오 B — 3인 스타트업 풀스택 팀 (주 35~40시간)
- 메인 도구: Claude Code Pro × 3인 + Codex CLI × 1인
- 월 고정: 인당 $20 × 3 + Codex 헤비유저 1명 추가 $20 = $80 ≈ ₩112,000
- API 추가 사용량: 헤비 디버깅 주간 평균 $30~80
- 합계: 월 약 ₩170,000~240,000
- 코멘트: 1명은 Codex로 백그라운드 작업 전담, 2명은 Claude Code로 메인 개발의 분업이 가장 깔끔합니다.
시나리오 C — 시니어 1인, 레거시 리팩토링 외주 (월 60~80시간 헤비)
- 메인 도구: Claude Code Pro + Anthropic API 별도 + Aider 보조
- 월 고정: Claude Pro $20
- API 사용량: $150~400 (코드베이스 50K~200K LOC 기준)
- 합계: 월 약 ₩240,000~580,000
- 코멘트: 비용 변동성을 잡으려면 Aider로 1회성 짧은 수정은 분리하는 게 합리적입니다. 큰 컨텍스트 작업만 Opus 4.7을 쓰세요.
환율은 ₩1,400/USD 기준 추정이며, ChatGPT Plus·Claude Pro 결제 시 국가 부가세가 별도로 붙을 수 있습니다.
Day 1 vs Day 30 — 30일 사용 후 변하는 것들
신상 도구를 처음 만지는 Day 1 의 인상과 Day 30 에 정착하는 워크플로는 꽤 다릅니다. Codex CLI 0.120 기준 변화 패턴을 정리했어요.
| 항목 | Day 1 (첫 인상) | Day 7 | Day 30 (정착) |
|---|---|---|---|
| 신뢰도 | "정말 자동으로 PR을 만든다고?" | "근데 가끔 엉뚱한 파일을 건드리네" | 작업 스코프 명시 + diff 강제 리뷰 루틴 정착 |
| 비용 감각 | "Plus 안 넘으니 부담 없음" | "API 추가가 슬슬 쌓이네" | 작업당 토큰 한도를 프롬프트에 박아두는 습관 |
| 멘탈 모델 | "AI가 알아서 해주는 시대" | "내가 감독자 일을 하는구나" | PR 리뷰어 + 테스트 작성자 역할로 자리 정의 |
| 협업 | 혼자 쓰는 도구 | "동료 코드를 에이전트가 분석한 결과로 공유" | 팀 컨벤션을 프롬프트 템플릿에 박아 공유 |
| 위험 인식 | "보안은 다음에 보자" | "API 키 노출·테스트 자동 실행이 무섭다" | 샌드박스 + 변경 화이트리스트 운영 정착 |
Day 30에 도달하는 패턴: 도구가 알아서 해주는 마법에서 내 워크플로의 일부로 옮겨가는 시점이에요. 이 전환을 못 하면 AI가 만들어준 코드를 모른 채 배포하는 흔한 함정에 빠집니다.
솔직한 단점 6가지 — 영업 자료엔 안 나오는 이야기
30일 실사용에서 만난 모두가 겪는 단점이에요.
- 컨텍스트 누수: 백그라운드 에이전트가 지시하지 않은 파일까지 수정하는 사례가 7% 남아 있습니다.
--scope=src/api처럼 명시적 디렉터리 한정이 거의 필수예요. - API 비용 예측 불가: 같은 프롬프트가 ±35% 토큰 변동. 월 한도 알림을 무조건 설정하세요.
- 테스트 자동 실행의 양면성: 자동
npm test실행은 편하지만, DB 마이그레이션·외부 API 호출이 섞인 테스트에서는 데이터 손상 위험이 있습니다. - 한국어 변수명·주석에서 인덴트 깨짐이 가끔 발생합니다. 코드 포매터를 훅으로 강제해야 합니다.
- Realtime V2 비용: 백그라운드 스트리밍이 연결 유지 시간만큼 과금되어, 작업이 끝났는데 종료 안 된 세션에서 비용이 새는 경우가 있어요.
- 메모리 동기화의 보안 함정: ChatGPT 메모리에 회사 내부 정보가 학습되지 않도록 프로젝트 격리가 필수입니다. 사내 정책 검토 없이 켜지 마세요.
추천 도구 조합 3선
각각 단독으로 쓰기보다 조합이 정답인 경우가 많습니다.
1. 메인 + 병렬 조합 (개인 헤비유저)
Claude Code Pro로 메인 작업을 굴리고, Codex CLI를 백그라운드 빌드 검증·테스트 자동화 보조로 두는 구성. 월 약 ₩56,000 + API. 시간 단위 작업이 많은 1인 개발자에게 최적이에요.
2. 비용 통제 조합 (외주·프리랜서)
Aider 메인 + Anthropic API + 작업별 토큰 한도. 시간당 정산이 명확해서 클라이언트 청구에도 깔끔합니다. 비용 투명성은 최고지만 에이전트형 자율 작업 기대치는 낮춰 잡으세요.
3. 팀 도입 조합 (3~10인 스타트업)
인당 Claude Code Pro 균등 지급 + 백그라운드 작업 전담 1명에게 Codex CLI 추가. 코드 컨벤션을 프롬프트 템플릿으로 사내 공유하면 팀 코드 스타일 일관성이 빠르게 정착됩니다.
함께 자주 보는 질문 (PPA)
Q. Codex CLI 0.120, 결제 안 하고 어디까지 무료로 써볼 수 있나요?
A. OpenAI Free 티어 API 한도 안에서 기본 명령까지는 시험 가능합니다. 다만 백그라운드 스트리밍과 Realtime V2는 유료 모델 호출이 필요해 실질적 평가는 ChatGPT Plus 1개월부터 시작하시는 게 합리적이에요.
Q. Claude Code랑 Codex CLI를 동시에 깔아도 충돌 없나요?
A. CLI 바이너리 이름이 다르고(codex, claude) 설정 디렉터리도 분리되어 충돌은 거의 없습니다. 다만 셸 환경변수(OPENAI_API_KEY, ANTHROPIC_API_KEY)는 각각 따로 관리하시고, 기본 모델 설정을 헷갈리지 않게 별칭(alias)을 권장합니다.
Q. 백그라운드 에이전트가 지시 안 한 파일을 수정해버렸어요. 막을 방법은?
A. 세 가지가 정석입니다. ① --scope 또는 --allow 디렉터리 화이트리스트 명시, ② 자동 커밋 기능 끄고 제안 모드로만 실행, ③ Git 훅으로 프로젝트 외부 경로 변경 차단. 보안·운영 측면에선 ③번이 가장 안전합니다.
Q. 한국어 변수명·주석 품질은 어느 도구가 나은가요?
A. 30일 평가에서는 Claude Code(Opus 4.7) > Codex CLI > Gemini CLI ≈ Aider 순이었어요. 한국어 변수명을 자주 쓴다면 프롬프트에 사내 명명 규칙 예시를 박아두면 어떤 도구든 품질이 한 단계 올라갑니다.
Q. 바이브 코딩 입문자에게 OpenAI Codex CLI가 맞나요?
A. 처음부터 백그라운드 다중 에이전트는 과합니다. ChatGPT 웹에서 워밍업 → Codex CLI 단일 작업 → 백그라운드 작업 순으로 점진 도입하시고, 결제·고객 데이터 다루는 코드 배포 전에는 반드시 사람 리뷰를 끼우세요.
마지막 5분 체크리스트 — 결제 누르기 전 점검
- [ ] 메인 도구 1개로 시작했나요? (병렬 도구는 Day 14 이후 추가 권장)
- [ ] 프로젝트 외부 파일 수정 차단 훅을 걸었나요?
- [ ] API 비용 월 한도 + 알림 설정 완료했나요?
- [ ] ChatGPT 메모리·플러그인 회사 데이터 학습 옵션 검토했나요?
- [ ] 자동 테스트 실행에서 외부 API·DB 호출은 모킹 처리했나요?
- [ ] 생성 코드의 라이선스 출처 표기 정책 정했나요?
- [ ] 팀이라면 프롬프트 템플릿·코드 컨벤션 사내 공유 위치 정해두었나요?
마치며 — 도구는 매 분기 바뀐다, 워크플로는 본인이 만든다
OpenAI Codex CLI 0.120은 백그라운드 에이전트 스트리밍이라는 새 패러다임을 던졌고, Claude Code는 복합 리팩토링의 깊이로 받아치는 중입니다. 둘 다 분기마다 큰 업데이트가 예고되어 있어요. 30일 사용해보고 느낀 가장 큰 변화는 도구의 스펙이 아니라 내가 감독자·리뷰어로 역할이 옮겨갔다는 점이었습니다.
지금 가장 합리적인 시작은 Claude Code Pro 단독입니다. 거기서 사용 시간이 주 20시간을 넘어가면 Codex CLI를 병렬 도구로 끼우는 게 정답에 가까워요. 도구는 매 분기 바뀌어도 작업 스코프·리뷰 루틴·비용 알림 세 가지 워크플로는 한 번 잘 만들면 다음 도구로도 그대로 가져갈 수 있습니다.
마무리: 실행 가능한 팁
- Day 1에는 Claude Code Pro 단독으로 작게 시작하세요. 둘 다 결제하는 함정에 안 빠지는 게 첫 번째 절약입니다.
- 주간 사용 시간이 20시간을 넘기 시작하면 Codex CLI 0.120 + ChatGPT Plus를 병렬 작업 전담으로 추가합니다.
- 첫 주는 반드시
--scope디렉터리 화이트리스트를 박고 시작하세요. 안 그러면 프로젝트 외부 파일 수정 사고가 한 번은 납니다. - API 비용 월 한도 + 슬랙·이메일 알림 두 가지를 결제 즉시 설정하세요. 토큰 변동성이 크기 때문에 예측보다 알림이 안전합니다.
- 한국어 변수명·주석을 쓴다면 프로젝트 루트에
CODE_CONVENTIONS.md한 장만 둬도 도구 품질이 한 단계 올라갑니다. - 분기마다 도구 재평가 30분을 캘린더에 고정하세요. 매번 새 옵션이 나옵니다. 다만 재평가 ≠ 도구 교체 — 워크플로가 깨지지 않을 때만 바꾸세요.
참고 자료
- OpenAI Codex CLI 공식 GitHub 저장소 —
github.com/openai/codex-cli(릴리스 노트·CHANGELOG 참고) - OpenAI Realtime API 공식 문서 —
platform.openai.com/docs/guides/realtime - Anthropic Claude Code 문서 —
docs.claude.com/claude-code - Aider 공식 문서 —
aider.chat - Stack Overflow Developer Survey 2026 — AI 도구 만족도 추이 섹션
- 한국 정보통신정책연구원(KISDI) 2026년 보고서 — 생성 AI 개발자 활용 실태 조사 (인용은 짧게, 본문 인사이트는 모두 자체 작성)
본 글은 2026-05-12 기준의 분석이며, 도구·가격·기능은 짧은 주기로 변경됩니다. 결제 직전에 각 공식 사이트에서 최신 약관·요금을 한 번 더 확인하세요. 본문에 인용된 비용·시간 데이터는 동일 12,000 LOC 사이드 프로젝트·동일 사용자 30일 측정 결과로, 다른 환경에서는 차이가 발생할 수 있습니다.

댓글
댓글 쓰기