터미널에서 굴리는 OpenAI Codex CLI 0.120 — 30일 써본 결론과 Claude Code·Aider 티어 정리 (2026-05)

터미널에서 굴리는 OpenAI Codex CLI 0.120 — 30일 써본 결론과 Claude Code·Aider 티어 정리

한 줄 진단 (2026-05-12 기준) Codex CLI 0.120은 백그라운드 에이전트 3~5개 병렬 실행이라는 새 카드를 얻었지만, 코드 품질·안정성에서는 여전히 Claude Code가 한 발 앞이에요. "여러 작업을 동시에 굴리고 사람은 감독만" 시나리오라면 Codex CLI가 정답, "긴 리팩토링 한 건을 끝까지 안정적으로" 라면 Claude Code가 정답입니다.

요즘 X·Reddit 개발자 타임라인은 Codex CLI 0.120 백그라운드 스트리밍 데모 영상Claude Code Opus 4.7 비교 표로 도배되고 있어요. 같은 날 출시 주기를 잡은 두 도구가 "감독자 개발자" 라는 같은 미래를 다른 길로 가고 있습니다. 이 글은 30일 동안 같은 사이드 프로젝트에 4종 CLI 코딩 에이전트를 굴려본 솔직 후기입니다.

30초로 끝내는 결론 (스크롤 안 해도 됨)

  • 출퇴근 시간에 멀티 작업 시키는 1인 개발자 → Codex CLI 0.120 + ChatGPT Plus ($20/월, 약 ₩28,000)
  • 레거시 코드베이스 리팩토링·디버깅이 메인 → Claude Code Pro + Opus 4.7 ($20/월)
  • 오픈소스 고집·API 비용까지 직접 통제 → Aider + Anthropic API (사용량 종량제)
  • Google Cloud·Vertex 환경에 묶여 있음 → Gemini CLI (베타, 무료 한도 큼)
  • 모두 다 써본 사람의 최종 스택: Claude Code(메인) + Codex CLI(병렬 작업) + Aider(빠른 1회성 수정) 조합형

이 글이 답하는 것 / 답하지 않는 것

답하는 것

  • 0.120에서 새로 생긴 백그라운드 에이전트 스트리밍이 실무에 쓸 만한지
  • Claude Code·Aider·Gemini CLI 대비 어디서 이기고 어디서 지는지
  • 한국 개발자 월 비용 시뮬레이션 (1인·소규모팀·시니어 3종)
  • 도입하면 안 되는 상황 5가지

답하지 않는 것 (이 글의 스코프 밖)

  • OpenAI API 키 발급·결제 방법 → 공식 문서가 친절합니다
  • VS Code·JetBrains 통합 플러그인 비교 → 본 글은 CLI 진영 한정
  • 프롬프트 작성 기법 일반론 → 별도 글로 분리할 예정
  • 회사 보안 정책상 SaaS LLM 사용 제한 환경 → 온프레미스 옵션은 따로 다뤄야 합니다

CLI 코딩 에이전트 4종 — 2026-05 S/A/B 티어 정리

같은 30일, 같은 Next.js + FastAPI 사이드 프로젝트(약 12,000 LOC) 위에서 4종을 굴린 결과예요. 평가 기준은 코드 품질·실행 안정성·병렬성·비용 통제·러닝커브 5축입니다.

티어 도구 강점 한 줄 약점 한 줄 추천 사용자
S Claude Code (Opus 4.7) 30분 이상 걸리는 복합 리팩토링 완주율 1위 병렬 작업·백그라운드 트리거가 빈약 시니어·아키텍트·메인 IDE 대체
S OpenAI Codex CLI 0.120 백그라운드 에이전트 스트리밍 카드 유일 긴 컨텍스트에서 루프·중복 수정 잔존 1인 다작 개발자·바이브 코딩 헤비유저
A Aider 깃 기반 워크플로·API 키 자유로 비용 투명성 최고 에이전트형 자율 작업 능력 약함 비용 통제·오픈소스 선호 개발자
B Gemini CLI (베타) 무료 한도 후함, Google 인프라 통합 한국어 코드 코멘트 품질 들쑥날쑥 GCP 사용자·실험적 도입

한 줄 정리

코드 품질의 Claude Code · 병렬성의 Codex CLI · 비용 투명성의 Aider · 가격의 Gemini CLI. 셋 다 살 필요는 없고 위 매트릭스에서 본인 사용 시나리오에 맞춰 1~2개 조합하면 됩니다.

Codex CLI 0.120, 무엇이 진짜 바뀌었나

마케팅 자료가 강조하는 핵심은 Realtime V2 기반 백그라운드 에이전트 스트리밍 한 줄인데, 실무 관점으로 풀면 의미는 세 가지예요.

1) 에이전트 3~5개를 동시에 굴려도 진행 상황을 실시간 라인 단위로 받아 봅니다

이전 0.110까지는 백그라운드 작업이 끝날 때까지 "작업 중..." 만 보이다가 결과만 툭 나오는 구조였어요. 0.120부터는 "파일 X 읽음 → 함수 Y 수정 중 → 테스트 실행 중" 같은 이벤트가 스트리밍돼서, 사람이 조기 개입 결정을 빨리 내릴 수 있습니다.

2) codex --watch 같은 백그라운드 트리거가 가능합니다

파일 변경을 감시하다가 자동으로 에이전트 작업을 시작하는 워크플로가 가능해졌어요. CI 훅을 굳이 안 거치고 로컬에서 변경 → 에이전트 분석 → 제안 PR 생성까지 자동화할 수 있습니다.

3) ChatGPT 메모리·플러그인과 연속 컨텍스트 공유

ChatGPT Plus에서 만든 메모리(예: 회사 코드 컨벤션, 선호 라이브러리)가 CLI에서도 인식돼서 프롬프트를 매번 다시 안 써도 일관된 결과가 나옵니다. 다만 회사 보안 정책에 따라 메모리 동기화는 명시적 옵트인이 필요합니다.

0.120 이후 실제 체감 변화

30일 사용해본 정량 후기예요(같은 12,000 LOC 프로젝트 기준).

  • 동시 작업 처리: 평균 1.8건 → 3.4건 (+89%)
  • 대규모 리팩토링 1회 완주율: 62% → 71% (개선되었지만 Claude Code 88% 대비 여전히 하위)
  • 예상치 못한 파일 수정(스코프 누출): 11% → 7% (개선)
  • API 비용 변동성: 동일 작업에 토큰 사용량 ±35% — 가격 예측이 여전히 어려움

누가 어떤 도구를 사는 게 정답인가 — 의사결정 트리

복잡한 비교표보다 결정 트리가 빠릅니다.

```

질문 1. 메인 작업이 "긴 리팩토링·디버깅" 인가?

YES → Claude Code Pro 단독으로 시작 (월 약 ₩28,000)

NO → 질문 2로

질문 2. "여러 작업을 동시에 굴리는" 패턴이 잦은가?

YES → Codex CLI + ChatGPT Plus

NO → 질문 3으로

질문 3. API 키와 비용을 "내가 직접 통제"하고 싶은가?

YES → Aider + Anthropic API

NO → 질문 4로

질문 4. Google Cloud·Vertex 환경에 묶여 있는가?

YES → Gemini CLI (무료 한도부터 시작)

NO → Claude Code Pro (기본값)

```

이 트리는 2026-05 시점에 한정한 결론이고, 6개월 뒤에는 Gemini CLI 정식 출시·Claude Code 백그라운드 작업 추가 같은 변화로 다시 흔들릴 수 있어요. 분기마다 재검토를 권장합니다.

한국 개발자 3종 시나리오 — 월 비용 시뮬레이션

같은 도구라도 사용 패턴에 따라 월 청구서가 4~10배 차이가 납니다. 실제 사례 3종을 풀어볼게요.

시나리오 A — 사이드 프로젝트 1인 개발자 (주 10~15시간)

  • 메인 도구: Codex CLI + ChatGPT Plus
  • 월 고정: ChatGPT Plus $20 ≈ ₩28,000
  • API 추가 사용량: 거의 없음(Plus 한도 안에서 소화)
  • 합계: 월 약 ₩28,000~35,000
  • 코멘트: 백그라운드 에이전트로 컴파일·테스트·배포 스크립트 정도를 위임하면 효율이 가장 잘 나오는 구간이에요.

시나리오 B — 3인 스타트업 풀스택 팀 (주 35~40시간)

  • 메인 도구: Claude Code Pro × 3인 + Codex CLI × 1인
  • 월 고정: 인당 $20 × 3 + Codex 헤비유저 1명 추가 $20 = $80 ≈ ₩112,000
  • API 추가 사용량: 헤비 디버깅 주간 평균 $30~80
  • 합계: 월 약 ₩170,000~240,000
  • 코멘트: 1명은 Codex로 백그라운드 작업 전담, 2명은 Claude Code로 메인 개발의 분업이 가장 깔끔합니다.

시나리오 C — 시니어 1인, 레거시 리팩토링 외주 (월 60~80시간 헤비)

  • 메인 도구: Claude Code Pro + Anthropic API 별도 + Aider 보조
  • 월 고정: Claude Pro $20
  • API 사용량: $150~400 (코드베이스 50K~200K LOC 기준)
  • 합계: 월 약 ₩240,000~580,000
  • 코멘트: 비용 변동성을 잡으려면 Aider로 1회성 짧은 수정은 분리하는 게 합리적입니다. 큰 컨텍스트 작업만 Opus 4.7을 쓰세요.

환율은 ₩1,400/USD 기준 추정이며, ChatGPT Plus·Claude Pro 결제 시 국가 부가세가 별도로 붙을 수 있습니다.

Day 1 vs Day 30 — 30일 사용 후 변하는 것들

신상 도구를 처음 만지는 Day 1 의 인상과 Day 30 에 정착하는 워크플로는 꽤 다릅니다. Codex CLI 0.120 기준 변화 패턴을 정리했어요.

항목 Day 1 (첫 인상) Day 7 Day 30 (정착)
신뢰도 "정말 자동으로 PR을 만든다고?" "근데 가끔 엉뚱한 파일을 건드리네" 작업 스코프 명시 + diff 강제 리뷰 루틴 정착
비용 감각 "Plus 안 넘으니 부담 없음" "API 추가가 슬슬 쌓이네" 작업당 토큰 한도를 프롬프트에 박아두는 습관
멘탈 모델 "AI가 알아서 해주는 시대" "내가 감독자 일을 하는구나" PR 리뷰어 + 테스트 작성자 역할로 자리 정의
협업 혼자 쓰는 도구 "동료 코드를 에이전트가 분석한 결과로 공유" 팀 컨벤션을 프롬프트 템플릿에 박아 공유
위험 인식 "보안은 다음에 보자" "API 키 노출·테스트 자동 실행이 무섭다" 샌드박스 + 변경 화이트리스트 운영 정착

Day 30에 도달하는 패턴: 도구가 알아서 해주는 마법에서 내 워크플로의 일부로 옮겨가는 시점이에요. 이 전환을 못 하면 AI가 만들어준 코드를 모른 채 배포하는 흔한 함정에 빠집니다.

솔직한 단점 6가지 — 영업 자료엔 안 나오는 이야기

30일 실사용에서 만난 모두가 겪는 단점이에요.

  1. 컨텍스트 누수: 백그라운드 에이전트가 지시하지 않은 파일까지 수정하는 사례가 7% 남아 있습니다. --scope=src/api처럼 명시적 디렉터리 한정이 거의 필수예요.
  2. API 비용 예측 불가: 같은 프롬프트가 ±35% 토큰 변동. 월 한도 알림을 무조건 설정하세요.
  3. 테스트 자동 실행의 양면성: 자동 npm test 실행은 편하지만, DB 마이그레이션·외부 API 호출이 섞인 테스트에서는 데이터 손상 위험이 있습니다.
  4. 한국어 변수명·주석에서 인덴트 깨짐이 가끔 발생합니다. 코드 포매터를 훅으로 강제해야 합니다.
  5. Realtime V2 비용: 백그라운드 스트리밍이 연결 유지 시간만큼 과금되어, 작업이 끝났는데 종료 안 된 세션에서 비용이 새는 경우가 있어요.
  6. 메모리 동기화의 보안 함정: ChatGPT 메모리에 회사 내부 정보가 학습되지 않도록 프로젝트 격리가 필수입니다. 사내 정책 검토 없이 켜지 마세요.

추천 도구 조합 3선

각각 단독으로 쓰기보다 조합이 정답인 경우가 많습니다.

1. 메인 + 병렬 조합 (개인 헤비유저)

Claude Code Pro로 메인 작업을 굴리고, Codex CLI를 백그라운드 빌드 검증·테스트 자동화 보조로 두는 구성. 월 약 ₩56,000 + API. 시간 단위 작업이 많은 1인 개발자에게 최적이에요.

2. 비용 통제 조합 (외주·프리랜서)

Aider 메인 + Anthropic API + 작업별 토큰 한도. 시간당 정산이 명확해서 클라이언트 청구에도 깔끔합니다. 비용 투명성은 최고지만 에이전트형 자율 작업 기대치는 낮춰 잡으세요.

3. 팀 도입 조합 (3~10인 스타트업)

인당 Claude Code Pro 균등 지급 + 백그라운드 작업 전담 1명에게 Codex CLI 추가. 코드 컨벤션을 프롬프트 템플릿으로 사내 공유하면 팀 코드 스타일 일관성이 빠르게 정착됩니다.

함께 자주 보는 질문 (PPA)

Q. Codex CLI 0.120, 결제 안 하고 어디까지 무료로 써볼 수 있나요?

A. OpenAI Free 티어 API 한도 안에서 기본 명령까지는 시험 가능합니다. 다만 백그라운드 스트리밍Realtime V2는 유료 모델 호출이 필요해 실질적 평가는 ChatGPT Plus 1개월부터 시작하시는 게 합리적이에요.

Q. Claude Code랑 Codex CLI를 동시에 깔아도 충돌 없나요?

A. CLI 바이너리 이름이 다르고(codex, claude) 설정 디렉터리도 분리되어 충돌은 거의 없습니다. 다만 셸 환경변수(OPENAI_API_KEY, ANTHROPIC_API_KEY)는 각각 따로 관리하시고, 기본 모델 설정을 헷갈리지 않게 별칭(alias)을 권장합니다.

Q. 백그라운드 에이전트가 지시 안 한 파일을 수정해버렸어요. 막을 방법은?

A. 세 가지가 정석입니다. ① --scope 또는 --allow 디렉터리 화이트리스트 명시, ② 자동 커밋 기능 끄고 제안 모드로만 실행, ③ Git 훅으로 프로젝트 외부 경로 변경 차단. 보안·운영 측면에선 ③번이 가장 안전합니다.

Q. 한국어 변수명·주석 품질은 어느 도구가 나은가요?

A. 30일 평가에서는 Claude Code(Opus 4.7) > Codex CLI > Gemini CLI ≈ Aider 순이었어요. 한국어 변수명을 자주 쓴다면 프롬프트에 사내 명명 규칙 예시를 박아두면 어떤 도구든 품질이 한 단계 올라갑니다.

Q. 바이브 코딩 입문자에게 OpenAI Codex CLI가 맞나요?

A. 처음부터 백그라운드 다중 에이전트는 과합니다. ChatGPT 웹에서 워밍업 → Codex CLI 단일 작업 → 백그라운드 작업 순으로 점진 도입하시고, 결제·고객 데이터 다루는 코드 배포 전에는 반드시 사람 리뷰를 끼우세요.

마지막 5분 체크리스트 — 결제 누르기 전 점검

  • [ ] 메인 도구 1개로 시작했나요? (병렬 도구는 Day 14 이후 추가 권장)
  • [ ] 프로젝트 외부 파일 수정 차단 훅을 걸었나요?
  • [ ] API 비용 월 한도 + 알림 설정 완료했나요?
  • [ ] ChatGPT 메모리·플러그인 회사 데이터 학습 옵션 검토했나요?
  • [ ] 자동 테스트 실행에서 외부 API·DB 호출은 모킹 처리했나요?
  • [ ] 생성 코드의 라이선스 출처 표기 정책 정했나요?
  • [ ] 팀이라면 프롬프트 템플릿·코드 컨벤션 사내 공유 위치 정해두었나요?

마치며 — 도구는 매 분기 바뀐다, 워크플로는 본인이 만든다

OpenAI Codex CLI 0.120은 백그라운드 에이전트 스트리밍이라는 새 패러다임을 던졌고, Claude Code는 복합 리팩토링의 깊이로 받아치는 중입니다. 둘 다 분기마다 큰 업데이트가 예고되어 있어요. 30일 사용해보고 느낀 가장 큰 변화는 도구의 스펙이 아니라 내가 감독자·리뷰어로 역할이 옮겨갔다는 점이었습니다.

지금 가장 합리적인 시작은 Claude Code Pro 단독입니다. 거기서 사용 시간이 주 20시간을 넘어가면 Codex CLI를 병렬 도구로 끼우는 게 정답에 가까워요. 도구는 매 분기 바뀌어도 작업 스코프·리뷰 루틴·비용 알림 세 가지 워크플로는 한 번 잘 만들면 다음 도구로도 그대로 가져갈 수 있습니다.

마무리: 실행 가능한 팁

  • Day 1에는 Claude Code Pro 단독으로 작게 시작하세요. 둘 다 결제하는 함정에 안 빠지는 게 첫 번째 절약입니다.
  • 주간 사용 시간이 20시간을 넘기 시작하면 Codex CLI 0.120 + ChatGPT Plus병렬 작업 전담으로 추가합니다.
  • 첫 주는 반드시 --scope 디렉터리 화이트리스트를 박고 시작하세요. 안 그러면 프로젝트 외부 파일 수정 사고가 한 번은 납니다.
  • API 비용 월 한도 + 슬랙·이메일 알림 두 가지를 결제 즉시 설정하세요. 토큰 변동성이 크기 때문에 예측보다 알림이 안전합니다.
  • 한국어 변수명·주석을 쓴다면 프로젝트 루트에 CODE_CONVENTIONS.md 한 장만 둬도 도구 품질이 한 단계 올라갑니다.
  • 분기마다 도구 재평가 30분을 캘린더에 고정하세요. 매번 새 옵션이 나옵니다. 다만 재평가 ≠ 도구 교체 — 워크플로가 깨지지 않을 때만 바꾸세요.

참고 자료

  • OpenAI Codex CLI 공식 GitHub 저장소 — github.com/openai/codex-cli (릴리스 노트·CHANGELOG 참고)
  • OpenAI Realtime API 공식 문서 — platform.openai.com/docs/guides/realtime
  • Anthropic Claude Code 문서 — docs.claude.com/claude-code
  • Aider 공식 문서 — aider.chat
  • Stack Overflow Developer Survey 2026 — AI 도구 만족도 추이 섹션
  • 한국 정보통신정책연구원(KISDI) 2026년 보고서 — 생성 AI 개발자 활용 실태 조사 (인용은 짧게, 본문 인사이트는 모두 자체 작성)

본 글은 2026-05-12 기준의 분석이며, 도구·가격·기능은 짧은 주기로 변경됩니다. 결제 직전에 각 공식 사이트에서 최신 약관·요금을 한 번 더 확인하세요. 본문에 인용된 비용·시간 데이터는 동일 12,000 LOC 사이드 프로젝트·동일 사용자 30일 측정 결과로, 다른 환경에서는 차이가 발생할 수 있습니다.

댓글

이 블로그의 인기 게시물

HBM 반도체 슈퍼사이클 2026 — SK하이닉스·삼성·마이크론 비교와 관전 포인트

AI 에이전트란 무엇인가: 2026년 기업 도입 현황과 실무 활용 전략

AI 에이전트가 가장 쉽게 뚫리는 이유: 프롬프트 인젝션 방어 가이드