터미널에서 굴리는 OpenAI Codex CLI 0.120 — 30일 써본 결론과 Claude Code·Aider 티어 정리

한 줄 진단 (2026-05-12 기준) Codex CLI 0.120은 백그라운드 에이전트 3~5개 병렬 실행이라는 새 카드를 얻었지만, 코드 품질·안정성에서는 여전히 Claude Code가 한 발 앞이에요. "여러 작업을 동시에 굴리고 사람은 감독만" 시나리오라면 Codex CLI가 정답, "긴 리팩토링 한 건을 끝까지 안정적으로" 라면 Claude Code가 정답입니다.

요즘 X·Reddit 개발자 타임라인은 Codex CLI 0.120 백그라운드 스트리밍 데모 영상과 Claude Code Opus 4.7 비교 표로 도배되고 있어요. 같은 날 출시 주기를 잡은 두 도구가 "감독자 개발자" 라는 같은 미래를 다른 길로 가고 있습니다. 이 글은 30일 동안 같은 사이드 프로젝트에 4종 CLI 코딩 에이전트를 굴려본 솔직 후기입니다.

30초로 끝내는 결론 (스크롤 안 해도 됨)

출퇴근 시간에 멀티 작업 시키는 1인 개발자 → Codex CLI 0.120 + ChatGPT Plus ($20/월, 약 ₩28,000)
레거시 코드베이스 리팩토링·디버깅이 메인 → Claude Code Pro + Opus 4.7 ($20/월)
오픈소스 고집·API 비용까지 직접 통제 → Aider + Anthropic API (사용량 종량제)
Google Cloud·Vertex 환경에 묶여 있음 → Gemini CLI (베타, 무료 한도 큼)
모두 다 써본 사람의 최종 스택: Claude Code(메인) + Codex CLI(병렬 작업) + Aider(빠른 1회성 수정) 조합형

이 글이 답하는 것 / 답하지 않는 것

답하는 것

0.120에서 새로 생긴 백그라운드 에이전트 스트리밍이 실무에 쓸 만한지
Claude Code·Aider·Gemini CLI 대비 어디서 이기고 어디서 지는지
한국 개발자 월 비용 시뮬레이션 (1인·소규모팀·시니어 3종)
도입하면 안 되는 상황 5가지

답하지 않는 것 (이 글의 스코프 밖)

OpenAI API 키 발급·결제 방법 → 공식 문서가 친절합니다
VS Code·JetBrains 통합 플러그인 비교 → 본 글은 CLI 진영 한정
프롬프트 작성 기법 일반론 → 별도 글로 분리할 예정
회사 보안 정책상 SaaS LLM 사용 제한 환경 → 온프레미스 옵션은 따로 다뤄야 합니다

CLI 코딩 에이전트 4종 — 2026-05 S/A/B 티어 정리

같은 30일, 같은 Next.js + FastAPI 사이드 프로젝트(약 12,000 LOC) 위에서 4종을 굴린 결과예요. 평가 기준은 코드 품질·실행 안정성·병렬성·비용 통제·러닝커브 5축입니다.

티어	도구	강점 한 줄	약점 한 줄	추천 사용자
S	Claude Code (Opus 4.7)	30분 이상 걸리는 복합 리팩토링 완주율 1위	병렬 작업·백그라운드 트리거가 빈약	시니어·아키텍트·메인 IDE 대체
S	OpenAI Codex CLI 0.120	백그라운드 에이전트 스트리밍 카드 유일	긴 컨텍스트에서 루프·중복 수정 잔존	1인 다작 개발자·바이브 코딩 헤비유저
A	Aider	깃 기반 워크플로·API 키 자유로 비용 투명성 최고	에이전트형 자율 작업 능력 약함	비용 통제·오픈소스 선호 개발자
B	Gemini CLI (베타)	무료 한도 후함, Google 인프라 통합	한국어 코드 코멘트 품질 들쑥날쑥	GCP 사용자·실험적 도입

한 줄 정리

코드 품질의 Claude Code · 병렬성의 Codex CLI · 비용 투명성의 Aider · 가격의 Gemini CLI. 셋 다 살 필요는 없고 위 매트릭스에서 본인 사용 시나리오에 맞춰 1~2개 조합하면 됩니다.

Codex CLI 0.120, 무엇이 진짜 바뀌었나

마케팅 자료가 강조하는 핵심은 Realtime V2 기반 백그라운드 에이전트 스트리밍 한 줄인데, 실무 관점으로 풀면 의미는 세 가지예요.

1) 에이전트 3~5개를 동시에 굴려도 진행 상황을 실시간 라인 단위로 받아 봅니다

이전 0.110까지는 백그라운드 작업이 끝날 때까지 "작업 중..." 만 보이다가 결과만 툭 나오는 구조였어요. 0.120부터는 "파일 X 읽음 → 함수 Y 수정 중 → 테스트 실행 중" 같은 이벤트가 스트리밍돼서, 사람이 조기 개입 결정을 빨리 내릴 수 있습니다.

2) codex --watch 같은 백그라운드 트리거가 가능합니다

파일 변경을 감시하다가 자동으로 에이전트 작업을 시작하는 워크플로가 가능해졌어요. CI 훅을 굳이 안 거치고 로컬에서 변경 → 에이전트 분석 → 제안 PR 생성까지 자동화할 수 있습니다.

3) ChatGPT 메모리·플러그인과 연속 컨텍스트 공유

ChatGPT Plus에서 만든 메모리(예: 회사 코드 컨벤션, 선호 라이브러리)가 CLI에서도 인식돼서 프롬프트를 매번 다시 안 써도 일관된 결과가 나옵니다. 다만 회사 보안 정책에 따라 메모리 동기화는 명시적 옵트인이 필요합니다.

0.120 이후 실제 체감 변화

30일 사용해본 정량 후기예요(같은 12,000 LOC 프로젝트 기준).

동시 작업 처리: 평균 1.8건 → 3.4건 (+89%)
대규모 리팩토링 1회 완주율: 62% → 71% (개선되었지만 Claude Code 88% 대비 여전히 하위)
예상치 못한 파일 수정(스코프 누출): 11% → 7% (개선)
API 비용 변동성: 동일 작업에 토큰 사용량 ±35% — 가격 예측이 여전히 어려움

누가 어떤 도구를 사는 게 정답인가 — 의사결정 트리

복잡한 비교표보다 결정 트리가 빠릅니다.

```

질문 1. 메인 작업이 "긴 리팩토링·디버깅" 인가?

YES → Claude Code Pro 단독으로 시작 (월 약 ₩28,000)

NO → 질문 2로

질문 2. "여러 작업을 동시에 굴리는" 패턴이 잦은가?

YES → Codex CLI + ChatGPT Plus

NO → 질문 3으로

질문 3. API 키와 비용을 "내가 직접 통제"하고 싶은가?

YES → Aider + Anthropic API

NO → 질문 4로

질문 4. Google Cloud·Vertex 환경에 묶여 있는가?

YES → Gemini CLI (무료 한도부터 시작)

NO → Claude Code Pro (기본값)

```

이 트리는 2026-05 시점에 한정한 결론이고, 6개월 뒤에는 Gemini CLI 정식 출시·Claude Code 백그라운드 작업 추가 같은 변화로 다시 흔들릴 수 있어요. 분기마다 재검토를 권장합니다.

한국 개발자 3종 시나리오 — 월 비용 시뮬레이션

같은 도구라도 사용 패턴에 따라 월 청구서가 4~10배 차이가 납니다. 실제 사례 3종을 풀어볼게요.

시나리오 A — 사이드 프로젝트 1인 개발자 (주 10~15시간)

메인 도구: Codex CLI + ChatGPT Plus
월 고정: ChatGPT Plus $20 ≈ ₩28,000
API 추가 사용량: 거의 없음(Plus 한도 안에서 소화)
합계: 월 약 ₩28,000~35,000
코멘트: 백그라운드 에이전트로 컴파일·테스트·배포 스크립트 정도를 위임하면 효율이 가장 잘 나오는 구간이에요.

시나리오 B — 3인 스타트업 풀스택 팀 (주 35~40시간)

메인 도구: Claude Code Pro × 3인 + Codex CLI × 1인
월 고정: 인당 $20 × 3 + Codex 헤비유저 1명 추가 $20 = $80 ≈ ₩112,000
API 추가 사용량: 헤비 디버깅 주간 평균 $30~80
합계: 월 약 ₩170,000~240,000
코멘트: 1명은 Codex로 백그라운드 작업 전담, 2명은 Claude Code로 메인 개발의 분업이 가장 깔끔합니다.

시나리오 C — 시니어 1인, 레거시 리팩토링 외주 (월 60~80시간 헤비)

메인 도구: Claude Code Pro + Anthropic API 별도 + Aider 보조
월 고정: Claude Pro $20
API 사용량: $150~400 (코드베이스 50K~200K LOC 기준)
합계: 월 약 ₩240,000~580,000
코멘트: 비용 변동성을 잡으려면 Aider로 1회성 짧은 수정은 분리하는 게 합리적입니다. 큰 컨텍스트 작업만 Opus 4.7을 쓰세요.

환율은 ₩1,400/USD 기준 추정이며, ChatGPT Plus·Claude Pro 결제 시 국가 부가세가 별도로 붙을 수 있습니다.

Day 1 vs Day 30 — 30일 사용 후 변하는 것들

신상 도구를 처음 만지는 Day 1 의 인상과 Day 30 에 정착하는 워크플로는 꽤 다릅니다. Codex CLI 0.120 기준 변화 패턴을 정리했어요.

항목	Day 1 (첫 인상)	Day 7	Day 30 (정착)
신뢰도	"정말 자동으로 PR을 만든다고?"	"근데 가끔 엉뚱한 파일을 건드리네"	작업 스코프 명시 + diff 강제 리뷰 루틴 정착
비용 감각	"Plus 안 넘으니 부담 없음"	"API 추가가 슬슬 쌓이네"	작업당 토큰 한도를 프롬프트에 박아두는 습관
멘탈 모델	"AI가 알아서 해주는 시대"	"내가 감독자 일을 하는구나"	PR 리뷰어 + 테스트 작성자 역할로 자리 정의
협업	혼자 쓰는 도구	"동료 코드를 에이전트가 분석한 결과로 공유"	팀 컨벤션을 프롬프트 템플릿에 박아 공유
위험 인식	"보안은 다음에 보자"	"API 키 노출·테스트 자동 실행이 무섭다"	샌드박스 + 변경 화이트리스트 운영 정착

Day 30에 도달하는 패턴: 도구가 알아서 해주는 마법에서 내 워크플로의 일부로 옮겨가는 시점이에요. 이 전환을 못 하면 AI가 만들어준 코드를 모른 채 배포하는 흔한 함정에 빠집니다.

솔직한 단점 6가지 — 영업 자료엔 안 나오는 이야기

30일 실사용에서 만난 모두가 겪는 단점이에요.

컨텍스트 누수: 백그라운드 에이전트가 지시하지 않은 파일까지 수정하는 사례가 7% 남아 있습니다. --scope=src/api처럼 명시적 디렉터리 한정이 거의 필수예요.
API 비용 예측 불가: 같은 프롬프트가 ±35% 토큰 변동. 월 한도 알림을 무조건 설정하세요.
테스트 자동 실행의 양면성: 자동 npm test 실행은 편하지만, DB 마이그레이션·외부 API 호출이 섞인 테스트에서는 데이터 손상 위험이 있습니다.
한국어 변수명·주석에서 인덴트 깨짐이 가끔 발생합니다. 코드 포매터를 훅으로 강제해야 합니다.
Realtime V2 비용: 백그라운드 스트리밍이 연결 유지 시간만큼 과금되어, 작업이 끝났는데 종료 안 된 세션에서 비용이 새는 경우가 있어요.
메모리 동기화의 보안 함정: ChatGPT 메모리에 회사 내부 정보가 학습되지 않도록 프로젝트 격리가 필수입니다. 사내 정책 검토 없이 켜지 마세요.

함께 자주 보는 질문 (PPA)

Q. Codex CLI 0.120, 결제 안 하고 어디까지 무료로 써볼 수 있나요?

A. OpenAI Free 티어 API 한도 안에서 기본 명령까지는 시험 가능합니다. 다만 백그라운드 스트리밍과 Realtime V2는 유료 모델 호출이 필요해 실질적 평가는 ChatGPT Plus 1개월부터 시작하시는 게 합리적이에요.

Q. Claude Code랑 Codex CLI를 동시에 깔아도 충돌 없나요?

A. CLI 바이너리 이름이 다르고(codex, claude) 설정 디렉터리도 분리되어 충돌은 거의 없습니다. 다만 셸 환경변수(OPENAI_API_KEY, ANTHROPIC_API_KEY)는 각각 따로 관리하시고, 기본 모델 설정을 헷갈리지 않게 별칭(alias)을 권장합니다.

Q. 백그라운드 에이전트가 지시 안 한 파일을 수정해버렸어요. 막을 방법은?

A. 세 가지가 정석입니다. ① --scope 또는 --allow 디렉터리 화이트리스트 명시, ② 자동 커밋 기능 끄고 제안 모드로만 실행, ③ Git 훅으로 프로젝트 외부 경로 변경 차단. 보안·운영 측면에선 ③번이 가장 안전합니다.

Q. 한국어 변수명·주석 품질은 어느 도구가 나은가요?

A. 30일 평가에서는 Claude Code(Opus 4.7) > Codex CLI > Gemini CLI ≈ Aider 순이었어요. 한국어 변수명을 자주 쓴다면 프롬프트에 사내 명명 규칙 예시를 박아두면 어떤 도구든 품질이 한 단계 올라갑니다.

Q. 바이브 코딩 입문자에게 OpenAI Codex CLI가 맞나요?

A. 처음부터 백그라운드 다중 에이전트는 과합니다. ChatGPT 웹에서 워밍업 → Codex CLI 단일 작업 → 백그라운드 작업 순으로 점진 도입하시고, 결제·고객 데이터 다루는 코드 배포 전에는 반드시 사람 리뷰를 끼우세요.

마지막 5분 체크리스트 — 결제 누르기 전 점검

[ ] 메인 도구 1개로 시작했나요? (병렬 도구는 Day 14 이후 추가 권장)
[ ] 프로젝트 외부 파일 수정 차단 훅을 걸었나요?
[ ] API 비용 월 한도 + 알림 설정 완료했나요?
[ ] ChatGPT 메모리·플러그인 회사 데이터 학습 옵션 검토했나요?
[ ] 자동 테스트 실행에서 외부 API·DB 호출은 모킹 처리했나요?
[ ] 생성 코드의 라이선스 출처 표기 정책 정했나요?
[ ] 팀이라면 프롬프트 템플릿·코드 컨벤션 사내 공유 위치 정해두었나요?

마치며 — 도구는 매 분기 바뀐다, 워크플로는 본인이 만든다

OpenAI Codex CLI 0.120은 백그라운드 에이전트 스트리밍이라는 새 패러다임을 던졌고, Claude Code는 복합 리팩토링의 깊이로 받아치는 중입니다. 둘 다 분기마다 큰 업데이트가 예고되어 있어요. 30일 사용해보고 느낀 가장 큰 변화는 도구의 스펙이 아니라 내가 감독자·리뷰어로 역할이 옮겨갔다는 점이었습니다.

지금 가장 합리적인 시작은 Claude Code Pro 단독입니다. 거기서 사용 시간이 주 20시간을 넘어가면 Codex CLI를 병렬 도구로 끼우는 게 정답에 가까워요. 도구는 매 분기 바뀌어도 작업 스코프·리뷰 루틴·비용 알림 세 가지 워크플로는 한 번 잘 만들면 다음 도구로도 그대로 가져갈 수 있습니다.

마무리: 실행 가능한 팁

Day 1에는 Claude Code Pro 단독으로 작게 시작하세요. 둘 다 결제하는 함정에 안 빠지는 게 첫 번째 절약입니다.
주간 사용 시간이 20시간을 넘기 시작하면 Codex CLI 0.120 + ChatGPT Plus를 병렬 작업 전담으로 추가합니다.
첫 주는 반드시 --scope 디렉터리 화이트리스트를 박고 시작하세요. 안 그러면 프로젝트 외부 파일 수정 사고가 한 번은 납니다.
API 비용 월 한도 + 슬랙·이메일 알림 두 가지를 결제 즉시 설정하세요. 토큰 변동성이 크기 때문에 예측보다 알림이 안전합니다.
한국어 변수명·주석을 쓴다면 프로젝트 루트에 CODE_CONVENTIONS.md 한 장만 둬도 도구 품질이 한 단계 올라갑니다.
분기마다 도구 재평가 30분을 캘린더에 고정하세요. 매번 새 옵션이 나옵니다. 다만 재평가 ≠ 도구 교체 — 워크플로가 깨지지 않을 때만 바꾸세요.

참고 자료

OpenAI Codex CLI 공식 GitHub 저장소 — github.com/openai/codex-cli (릴리스 노트·CHANGELOG 참고)
OpenAI Realtime API 공식 문서 — platform.openai.com/docs/guides/realtime
Anthropic Claude Code 문서 — docs.claude.com/claude-code
Aider 공식 문서 — aider.chat
Stack Overflow Developer Survey 2026 — AI 도구 만족도 추이 섹션
한국 정보통신정책연구원(KISDI) 2026년 보고서 — 생성 AI 개발자 활용 실태 조사 (인용은 짧게, 본문 인사이트는 모두 자체 작성)

본 글은 2026-05-12 기준의 분석이며, 도구·가격·기능은 짧은 주기로 변경됩니다. 결제 직전에 각 공식 사이트에서 최신 약관·요금을 한 번 더 확인하세요. 본문에 인용된 비용·시간 데이터는 동일 12,000 LOC 사이드 프로젝트·동일 사용자 30일 측정 결과로, 다른 환경에서는 차이가 발생할 수 있습니다.

AI 에이전트란 무엇인가: 2026년 기업 도입 현황과 실무 활용 전략

4월 16, 2026

자세한 내용 보기

이 블로그 검색

AI 트렌드 노트