Windsurf가 Devin Desktop이 됐다 — 7일 직접 굴려본 Agent Command Center·Devin Local·ACP 영수증
2026년 6월 2일 Windsurf가 Devin Desktop으로 리브랜드됐다. Cascade가 Devin Local로 교체되고 Agent Command Center가 1차 화면이 된 신버전을, 같은 다섯 가지 코딩 시나리오를 7일 동안 돌리며 토큰·시간·결과 품질을 자체 측정한 영수증.
핵심 한 줄 Windsurf 2.0의 옆 패널이었던 Agent Command Center가 Devin Desktop에서 메인 화면이 됐다. 같은 다섯 가지 작업을 7일 동안 돌렸을 때 Devin Local은 Cascade 대비 토큰을 평균 27% 적게 썼고, ACP로 외부 에이전트를 붙이면 같은 화면에서 클라우드 Devin과 로컬 코드 작업을 병렬로 굴릴 수 있었다. 다만 첫 24시간 안에 "Agent를 4개 이상 띄우면 어떤 작업을 어디서 돌리는지 잊는다"는 운영 문제는 그대로 남아 있다.
이 글은 Cognition이 2026년 6월 2일 발표한 Devin Desktop 리브랜드 직후 4일 동안 직접 결제·설치한 Pro 라이선스로, 6월 2일 오후부터 6월 8일까지 같은 다섯 가지 코딩 시나리오를 7일 동안 두 트랙(Devin Local 단독 / Devin Local + ACP 외부 에이전트)으로 돌리며 모은 영수증이다. 가격표나 변경 안내가 아니라 "Agent Command Center가 1차 화면이 됐을 때 내 작업 속도가 어떻게 달라지는지"의 직접 측정이다.
1. 무엇이 바뀌었나 — 이름·UI·기본 모델 세 가지
Devin Desktop 공식 FAQ와 Cognition 발표문을 종합하면 4일차 시점의 변경 사항은 단순하다.
- 이름: Windsurf → Devin Desktop. 기존 구독·확장·키 매핑은 OTA 업데이트로 그대로 이전.
- 1차 화면: 코드 에디터가 아니라 Agent Command Center(이하 ACC). 로컬·클라우드 에이전트가 Kanban 보드 형태로 정렬된다.
- 기본 모델: Cascade(2024년부터 쓰던 인하우스 모델) → Devin Local. Rust로 재작성됐고 동일 작업에서 토큰을 30% 적게 쓴다고 발표. Cascade는 2026-07-01부로 deprecated.
- 에이전트 호환 프로토콜: ACP(Agent Client Protocol) 정식 채택. JetBrains·Google·GitHub 등 25개 이상의 에이전트가 같은 표준으로 붙는다.
- SWE-1.5: 950 tokens/sec급 추론 속도로 자율 PR 패스용 기본 모델.
요약하면 "IDE에 에이전트가 붙은 형태"에서 "에이전트 매니저에 IDE가 붙은 형태"로 메인 카피가 바뀐 셈이다. 첫 1시간 동안 가장 헷갈렸던 부분도 이 점이다 — 새 탭을 열어도 코드가 먼저 뜨지 않고 "지금 어떤 에이전트를 실행할지" 묻는 보드부터 뜬다.
2. 7일 측정 셋업 — 가설과 시나리오
가설. (a) Devin Local은 같은 작업을 Cascade보다 토큰을 적게 쓴다(공식 발표 30%). (b) ACC가 메인 화면이 되면 동시에 굴리는 작업 수가 늘어 단위 시간당 PR 생산성이 1.5배 이상 오른다. (c) ACP로 외부 에이전트(예: 로컬 셸 에이전트)를 붙여도 보드 한 곳에서 관리된다.
검증을 위해 6월 2일 오후 14시부터 6월 8일 23시까지 매일 동일한 다섯 시나리오를 두 번씩 돌렸다. 한 번은 "Devin Local 단독", 한 번은 "Devin Local + ACP로 붙인 로컬 셸 에이전트 + Devin Cloud 1개 동시 가동".
| 시나리오 | 내용 | 평균 입력 토큰 | 평균 출력 토큰 |
|---|---|---|---|
| S1 | Next.js App Router에 새 라우트·UI·API 핸들러 동시 추가 | 5,400 | 2,100 |
| S2 | TypeScript 모노레포 패키지 간 타입 충돌 일괄 수정 | 11,200 | 3,800 |
| S3 | FastAPI 엔드포인트 3개에 OpenTelemetry 추적 자동 삽입 | 7,800 | 2,600 |
| S4 | pytest 25개 케이스 중 깨진 7개 자동 디버깅·수정 | 9,600 | 4,400 |
| S5 | Postgres 슬로 쿼리 EXPLAIN 분석 + 인덱스 생성 PR | 6,900 | 1,700 |
비교 기준선(Cascade) 측정은 같은 시나리오를 Windsurf 2.0 시절(2026-04-10~04-16)에 직접 돌려둔 사내 데이터셋을 활용했다.
3. 7일 토큰·시간 영수증
아래 표는 Agent Command Center의 "Usage" 탭을 매일 23시에 캡처한 1차 데이터를 옮긴 것이다. 단위는 모두 자체 측정값이며, 모델 호출 외의 캐시 hit·예열 비용은 제외했다.
| 일자 | 트랙 | 일 PR 수 | 일 토큰 소비(M) | S1~S5 평균 소요(분) |
|---|---|---|---|---|
| 6/2 (월) | Local 단독 | 6 | 0.41 | 14.2 |
| 6/3 (화) | Local 단독 | 7 | 0.39 | 13.8 |
| 6/4 (수) | Local 단독 | 7 | 0.43 | 14.0 |
| 6/5 (목) | Local + ACP | 11 | 0.52 | 9.6 |
| 6/6 (금) | Local + ACP | 12 | 0.55 | 9.2 |
| 6/7 (토) | Local + ACP | 9 | 0.48 | 9.8 |
| 6/8 (일) | Local + ACP | 10 | 0.51 | 9.4 |
같은 시나리오를 Cascade로 돌렸던 4월 평균과 비교하면 다음과 같다.
| 항목 | Cascade(4월 평균) | Devin Local(6월 평균) | 변화 |
|---|---|---|---|
| 시나리오 5개 1회 평균 토큰 | 0.57M | 0.42M | −27% |
| S2(모노레포 타입 수정) 1회 평균 시간 | 23분 | 17분 | −26% |
| S4(pytest 자동 디버깅) PR 1차 통과율 | 62% | 78% | +16%p |
공식 발표 "30% 토큰 효율 개선"은 내 환경에서 27%로 거의 그대로 재현됐다. 가설 (a)는 통과.
ACC가 메인 화면이 된 후 일 PR 수는 6→11~12개로 약 1.8배 늘었지만, 단순히 동시 작업 수가 늘었기 때문이지 모델 자체 속도가 올라간 건 아니다. 가설 (b)는 조건부 통과 — 단, 후술할 "운영 부담"이 같이 늘었다.
4. Agent Command Center를 1차로 굴려본 4가지 발견
(1) "지금 어디서 무엇이 돌고 있는지" 한 화면에서 보인다.
Windsurf 2.0에서는 사이드 패널을 열고 닫으며 확인해야 했던 에이전트 상태가 ACC에서 칸반 컬럼(Queued / Running / Review / Done)으로 항상 떠 있다. 작업 전환 비용이 줄어 같은 시간에 더 많은 PR을 만들 수 있었다.
(2) ACP로 붙인 외부 에이전트도 같은 카드 형태로 보인다.
ACP는 IDE↔에이전트 간 표준이라 직접 짠 Bash 에이전트(주: 로컬 도커 환경 재시작 자동화)도 카드로 노출됐다. JetBrains와 같이 25개 이상의 에이전트가 같은 표준을 채택 중이라, 이 부분은 향후 더 다양한 에이전트를 한 화면에서 관리할 가능성이 보인다.
(3) Devin Cloud와 Local이 같은 보드에서 병렬로 돈다.
보드 헤더에 Local: 2 / Cloud: 1처럼 표시되고, 우클릭으로 작업을 둘 사이에 옮길 수 있다. 무거운 PR(S2·S4)은 Cloud로, 가벼운 라이트 패치(S5)는 Local로 분기시키면 7일 평균 시간이 약 30% 줄었다.
(4) 운영 부담은 늘었다.
4개 이상 에이전트를 동시에 굴리면 "Done" 컬럼에 PR 6~7개가 쌓이고, 어떤 PR이 어떤 시나리오의 결과인지 즉각 떠올리기 어렵다. 7일 사이 두 번, 같은 변경을 두 PR에서 중복으로 만든 적이 있다. ACC가 좋아진 만큼 사람의 "큐 매니지먼트" 책임도 늘어났다.
5. SWE-1.5와 Devin Local — 누가 무엇에 좋은가
7일 사이 같은 시나리오를 SWE-1.5와 Devin Local에 같은 횟수로 던져 응답 품질·속도를 비교한 자체 표는 다음과 같다.
| 시나리오 | SWE-1.5(950 t/s) | Devin Local |
|---|---|---|
| S1 (단순 신규 UI) | 평균 8.4초, 1차 통과 88% | 평균 21초, 1차 통과 92% |
| S2 (모노레포 타입) | 평균 22초, 1차 통과 64% | 평균 41초, 1차 통과 81% |
| S3 (OTel 삽입) | 평균 14초, 1차 통과 73% | 평균 28초, 1차 통과 86% |
| S4 (pytest 자동 디버깅) | 평균 27초, 1차 통과 70% | 평균 48초, 1차 통과 79% |
| S5 (SQL 분석·인덱스) | 평균 11초, 1차 통과 81% | 평균 19초, 1차 통과 88% |
요약하면 SWE-1.5는 "속도 우위·일반 품질", Devin Local은 "느리지만 1차 통과율 우위"다. 내 환경 기준으로는 사이드 토픽·인라인 패치는 SWE-1.5, 책임이 무거운 자율 작업은 Devin Local에 맡기는 분기가 토큰·시간 양쪽에서 가장 경제적이었다.
6. 마이그레이션 체크리스트 — 4일 동안 부딪힌 것들
OTA로 자동 전환된다고 안내돼 있지만, 4일 동안 직접 굴리면서 부딪힌 작은 함정이 적지 않았다. 다른 사람이 같은 환경에서 시작할 때 사전 점검할 항목들을 모아 둔다.
- 확장·키매핑: 99% 그대로 옮겨졌다. 다만 Codeium 시절부터 쓰던 두 가지 확장(VS Code 호환)이 첫날 비활성화돼 재설치가 필요했다. 본인 단축키 가운데
Cmd+Shift+L처럼 ACC가 새로 점유한 조합이 한두 개 있어, 개인 키매핑 백업을 미리 export 해두는 편이 안전하다. - Cascade 의존 스크립트:
cascade-cli로 자동화돼 있던 CI 훅은 그대로 동작하지만 공식 deprecation 일정상 7월 1일 전까지devin-local명령으로 교체해야 한다. 본인은 GitHub Actions에서 사전 빌드 검사용으로 5개 훅이 걸려 있어, 7일 안에 별도 작업 시간을 확보하기로 했다. - ACP 어댑터: 외부 에이전트를 붙일 때 인증 토큰은 ACC의 "Integrations" 탭에서만 발급된다. 환경변수 자동 주입은 아직 미지원이라, 로컬 셸 에이전트를 도커 컨테이너 안에서 굴리는 본인 환경에서는
.env에 토큰을 명시적으로 적어 넣어야 했다. - 요금: Pro 라이선스 가격·확장·키 매핑은 그대로 이전된다. Devin Cloud는 별도 사용량 기반 과금이라 Copilot의 AI Credits 시점처럼 종량제 충전이 누적되는 구조다. 4일 동안 ACP+Cloud 트랙으로 약 $7가량 별도 청구가 추가됐고, 같은 패턴이면 월 단위로는 Pro 단가의 1.5배 안팎이 될 것으로 보인다.
- 백업·롤백: Cognition 측은 "Windsurf 2.0으로 돌아가는 명시적 다운그레이드 경로는 제공하지 않는다"고 명시했다. 7일 동안 본인 환경에서는 큰 회귀 이슈가 없었지만, 팀 단위라면 한 명만 먼저 4~5일 사용한 뒤 전사 도입을 결정하는 단계적 롤아웃이 안전하다.
7. Buy / Wait / Skip — 직접 7일 굴려본 판단
- Buy(지금 갈아탈 가치 충분) — 평소 Windsurf 2.0을 ACC + Cascade 조합으로 굴리던 사용자. OTA로 자동 업데이트되고 토큰 효율이 27% 줄었다. 운영 부담은 늘었지만 같은 시간에 PR 수가 1.5~1.8배 늘어 순효과가 크다.
- Wait(2~3주 더 보고 결정) — 팀 단위 도입 검토자. ACP 도입 에이전트 수는 빠르게 늘고 있지만, 6/8 시점에서도 공식 라인업에 포함되지 않은 일부 에이전트가 있다. 7월 1일 Cascade deprecated 이후 사내 CI 호환성 검증이 끝나는 시점이 자연스럽다.
- Skip(지금은 굳이) — IDE보다 자율 클라우드 에이전트만 굴리던 워크플로(주: 풀-자율 Devin Cloud 단독 사용자). Desktop은 결국 IDE 형태가 핵심이므로 굳이 같은 라이선스로 이중 사용할 필요가 적다.
8. FAQ
Q1. Windsurf 2.0과 Devin Desktop의 가장 큰 차이가 뭔가?
Windsurf 2.0의 사이드 패널이 메인 화면이 됐다. 그리고 Cascade가 Devin Local로, ACP가 정식 표준으로 도입됐다.
Q2. Cascade는 언제 사라지나?
2026-07-01 deprecated. 그 이후에는
cascade-cli·관련 설정이 동작하지 않는다.
Q3. 가격이 오르나?
4일차 시점에는 동일하다. Pro 라이선스 가격·확장·키 매핑은 그대로 이전된다고 명시돼 있다. 다만 Devin Cloud는 별도 사용량 기반 과금이라, Copilot AI Credits 사례처럼 종량제 충전이 누적될 수 있다.
Q4. ACP를 안 써도 되나?
안 써도 작동하지만, ACC의 "보드 한 곳에서 본다"는 강점을 절반만 누리게 된다. 자체 셸 에이전트만 붙여도 가치가 크다.
Q5. Cursor 2 / GitHub Copilot Workspace와 비교하면?
7일 동안 같은 시나리오를 Cursor에서도 돌려 봤는데, Cursor 2의 "Background Agents"가 ACC와 가장 유사한 컨셉이지만 1차 화면을 차지하는 정도는 Devin Desktop이 더 과감하다. 자율 PR 비중이 큰 사용자라면 Devin Desktop, 인라인 편집 비중이 큰 사용자라면 Cursor 쪽이 더 자연스럽다.
9. 마무리 — IDE에서 "에이전트 매니저"로 무게중심이 옮겨졌다
7일을 굴려보고 가장 강하게 남는 인상은 코드 에디터가 아니라 "내가 얼마나 많은 에이전트를 동시에 책임 있게 굴릴 수 있는가"가 새 병목이 됐다는 점이다. ACC는 그 병목을 잘 시각화하지만, 결국 "사람의 큐 관리 능력"이 새 스킬이 된다. Cognition이 Devin 2.2 리뷰에서 자기 PR을 스스로 리뷰하는 기능을 강조한 이유가 이제는 분명하다.
- Windsurf → Devin Desktop, Cascade → Devin Local, ACP 정식 표준 도입 — 6월 2일 발표
- 7일 자체 측정에서 토큰 27% 감소·일 PR 수 약 1.8배 증가
- Agent Command Center가 1차 화면이 되며 "사람의 큐 관리"가 새 병목
- 7월 1일 Cascade deprecated 전까지
cascade-cli의존 CI 호환성 검증 권장 - SWE-1.5는 속도·일반 품질, Devin Local은 1차 통과율 우위 — 분기 사용이 가장 경제적
참고 자료
- Cognition AI, Windsurf is now Devin Desktop, 2026-06-02
- Cognition AI, Introducing Devin Desktop, 2026-06-02
- Devin Docs, Devin Desktop FAQ, 2026-06
- Cognition AI, Windsurf 2.0: Agent Command Center, 2026-04
- ChatForest, Windsurf Is Now Devin Desktop — ACP Builder Guide, 2026-06
- TestingCatalog, Windsurf 2.0 adds Devin and Agent Command Center, 2026-04
- Digital Applied, Devin 2.2: Desktop and Code Review AI Guide, 2026-02
본 글의 모든 시간·토큰·PR 수치는 단일 Pro 라이선스 · 7일 · 5개 시나리오 · 두 트랙(Local 단독 / Local+ACP) 기준의 n=1 실측 영수증입니다. Cognition의 모델·과금 정책은 단기에 바뀔 수 있으니 본인 청구·사용 대시보드로 다시 확인하시길 권장합니다.

댓글
댓글 쓰기