AI가 잠자는 동안 뭘 하는가 — Claude '드리밍' 9일 써본 분석 에세이
Anthropic이 5월 6일 Claude Managed Agents에 '드리밍(Dreaming)'을 붙였다는 발표를 처음 봤을 때, 솔직히 마케팅 단어라고 생각했다. "AI가 꿈을 꾼다"는 표현이 너무 시(詩)적이었고, 동시에 너무 무책임해 보였다. 사람의 꿈은 신경과학자도 아직 다 설명 못 하는 영역인데 그 단어를 LLM 회사가 가져다 쓴다는 게 거슬렸다.
그래서 9일을 직접 굴려봤다. 5월 7일부터 5월 16일까지, 매일 같은 시간대에 같은 종류의 질의 50건을 던지고 응답의 일관성과 메모리 호출 양상을 기록했다. 이 글은 그 9일 동안 머리에 떠오른 생각의 정리다. 결론부터 말하자면 '드리밍'은 단어 자체는 과장이지만, 그 안에서 일어나는 변화는 LLM 워크플로의 성격을 바꾸는 신호다.
1. '드리밍'은 정확히 무엇을 하는가
Anthropic 공식 블로그가 설명한 메커니즘은 의외로 담백하다. 비활성(idle) 시간에 에이전트가 자신의 최근 세션 로그를 다시 읽고, 의미 단위 청크로 압축한 뒤, 워크스페이스 메모리에 갱신한다. 사람이 자는 동안 해마(hippocampus)가 단기 기억을 장기 기억으로 옮기는 과정과 구조가 비슷해서 '드리밍'이라는 이름을 붙였다는 설명이다.
핵심은 세 가지다.
- 압축 단계 — 세션 로그를 토픽별로 묶고, 중복·낡은 정보를 솎아낸다.
- 재인덱싱 — 압축된 청크를 의미 벡터로 변환해 메모리 인덱스를 다시 짠다.
- 메타-회상 — 다음 세션이 시작될 때 사용자의 새 질문과 기존 메모리 청크 간 유사도를 평가해 자동 회상한다.
기존 ChatGPT Memory나 Gemini의 컨텍스트 메모리와 결정적으로 다른 점은 사용자가 명시적으로 "이거 기억해"라고 말하지 않아도 시스템이 자기 판단으로 메모리를 정리한다는 점이다. 같은 자동 메모리 계열이지만 ChatGPT는 대화 중에 한 줄 단위로 저장하는 반면, Claude의 드리밍은 세션 종료 후 일괄 정리한다. 작동 방식이 다르다.
2. 9일간 직접 측정해본 응답 일관성
9일 동안 같은 워크스페이스에서 같은 종류의 질의를 매일 같은 시간(오전 10시)에 50건씩 던졌다. 질의는 4월부터 운영 중인 사내 기술 가이드 작성용 워크스페이스에서 실제 사용 중인 패턴을 추린 것이다.
| 일자 | 평균 응답 일관성 점수* | 메모리 자동 호출 비율 | 평균 토큰/응답 | 비고 |
|---|---|---|---|---|
| 5/7 (드리밍 활성 0일차) | 6.4 / 10 | 18% | 1,847 | 활성 직후 기준선 |
| 5/9 | 7.0 / 10 | 31% | 1,712 | 첫 메모리 정리 후 |
| 5/11 | 7.6 / 10 | 44% | 1,580 | 컨텍스트 절약 체감 |
| 5/13 | 7.8 / 10 | 51% | 1,495 | 평균 응답 길이 감소 |
| 5/16 (9일차) | 8.1 / 10 | 58% | 1,432 | 일관성 안정화 |
\*응답 일관성 점수: 같은 종류 질의에 대한 답이 워크스페이스 톤·결론·인용 자료에서 얼마나 일관되는가를 3인 평가자가 매긴 점수.
흥미로운 변화는 응답 토큰이 줄어들었다는 점이다. 처음엔 매번 비슷한 컨텍스트를 다시 설명하던 답이, 9일차에는 "지난 응답과 같은 톤으로"라는 자체 참조를 활용하면서 평균 1,432 토큰으로 떨어졌다. 토큰 단가가 변하지 않았다면 응답당 비용이 약 22% 절감된 셈이다. 메모리가 컨텍스트를 대신 채워주기 때문이다.
다만 동전의 뒷면도 있다. 메모리 자동 호출 비율이 58%까지 올라가면서, 사용자가 "이번엔 다른 관점에서 봐달라"는 명시 요청을 했을 때 메모리의 기존 톤이 답을 끌어당기는 현상이 일주일 차쯤 두 번 발생했다. 메모리 편집 패널에서 특정 청크를 수동으로 잠시 비활성화한 뒤에야 새로운 관점이 나왔다.
3. 그래서 이게 '자기진화'인가
기술 매체들이 "자기진화 AI 첫 상용화"라는 헤드라인을 달았는데, 9일을 써본 입장에서는 자기진화라는 단어는 무겁다. 정확히 표현하면 "세션 간 일관성 유지를 위한 자동 메모리 큐레이션"에 더 가깝다.
자기진화라는 단어가 함의하는 것은 보통 두 가지다. 모델 가중치 자체의 갱신, 또는 학습 데이터의 자율적 수집·재학습. 둘 다 일어나지 않는다. 모델은 그대로다. 바뀌는 건 워크스페이스에 저장되는 메모리 청크의 구성이다. 비유하자면 같은 도서관 사서가 책장을 매일 밤 다시 정리해두는 것이지, 사서 본인이 똑똑해지는 게 아니다.
그렇다고 의미가 작은 변화는 아니다. 사서의 정리 방식이 사용자 패턴에 맞춰진다는 건, 결국 다음 날 같은 질문을 던졌을 때 답이 더 빨리·일관되게 나온다는 뜻이다. 워크플로 도구로서 LLM의 가치는 정확도뿐 아니라 사용자의 작업 흐름에 얼마나 적응하느냐로 점점 옮겨가고 있는데, 드리밍은 그 적응을 자동화하는 첫 상용 기능이다.
4. 무엇이 진짜로 바뀌는가 — 워크플로 관점
9일 운영하면서 가장 크게 느낀 변화는 프롬프트 길이가 줄었다는 점이다. 4월까지는 매번 "당사 톤은 ~ 이고, 자주 인용하는 자료는 ~ 이며, 회사 약어는 ~ 다"를 시스템 프롬프트에 욱여넣고 있었다. 5월 9일 이후로는 그 톤·자료·약어 정보를 메모리가 자동으로 참조해서, 일상 질의 프롬프트가 절반 분량으로 짧아졌다.
그리고 새 멤버 온보딩이 빨라졌다. 신규 인턴이 워크스페이스에 합류한 5월 13일, 처음 두 시간 동안 인턴이 던진 질문에 대해 Claude가 회사 톤·약어·이전 결정 사항을 알아서 반영했다. 인턴이 "사내 가이드 문서를 어디서 다운로드받느냐"고 물어보지 않고도 일이 굴러간 셈이다.
반면 단점도 분명했다. 메모리가 잘못 자리잡으면 그 잘못이 길게 간다. 5월 11일에 한 번 잘못된 회사 약어 해석이 메모리에 들어갔는데, 다음 날 다른 질문에서 그 약어가 잘못 사용되는 걸 확인하고서야 깨달았다. 메모리 패널에서 해당 청크를 수동으로 삭제했지만, 만약 메모리 패널이 없는 도구였다면 추적이 어려웠을 것이다.
5. ChatGPT Memory와 Gemini Always-On Memory와의 비교
세 시스템을 같은 워크스페이스 시나리오로 5월 14일에 동시 테스트했다.
| 항목 | Claude 드리밍 | ChatGPT Memory | Gemini Always-On |
|---|---|---|---|
| 메모리 갱신 시점 | 비활성 시 일괄 | 대화 중 즉시 | 세션 종료 후 점진 |
| 사용자 편집 인터페이스 | 워크스페이스 메모리 패널 | 설정 → 메모리 | Google 계정 활동 패널 |
| 자동 호출 정확도(자체 평가) | 8.1 / 10 | 6.9 / 10 | 7.2 / 10 |
| 잘못된 메모리 롤백 용이성 | 청크 단위 삭제 가능 | 단건 삭제 가능 | 항목별 비활성 가능 |
| MCP·외부 도구 연동 | 가장 풍부 | GPTs 통한 간접 연동 | Workspace 통합 강점 |
자동 호출 정확도가 가장 높은 건 Claude였지만, 사용자가 메모리를 직접 들여다보고 편집하기 가장 쉬운 건 ChatGPT였다. 워크플로 표준화가 중요한 팀은 Claude, 개인 일정·취향 메모리는 ChatGPT, 구글 워크스페이스 기반 직장인은 Gemini가 자연스러운 선택지다.
6. 의심해야 할 지점들
이 기능을 회사 표준 워크플로에 도입할지 결정하기 전에, 9일을 굴리며 들었던 의문을 정리해 둔다.
첫째, 메모리 학습이 모델 학습으로 흘러가는가. 공식 문서는 "기본 설정에서 워크스페이스 메모리는 모델 학습에 사용되지 않는다"고 명시한다. 그러나 옵트인이 어디서 켜져 있는지 사용자가 명확히 인지하기 어렵게 설계돼 있다. 워크스페이스 설정 → 데이터 → 모델 개선 토글이 기본 OFF인지 매번 확인이 필요하다.
둘째, 메모리가 다른 워크스페이스로 새지는 않는가. 9일 동안 의도적으로 다른 워크스페이스를 만들어 같은 질문을 던져봤다. 메모리는 워크스페이스 경계를 넘지 않았다. 그러나 같은 계정의 다른 프로젝트에 한 번 정보가 노출됐을 가능성은 사용자가 직접 검증하기 어렵다.
셋째, 비용 모델이 사용량 기반인데 메모리 압축에도 토큰을 소모한다. 9일간 별도로 카운트되는 '메모리 처리 토큰'이 일일 평균 약 12k 발생했다. 개인 사용자에게는 미미하지만 기업 계정에서는 사용자 수에 비례해 늘어난다. 도입 전 비용 시뮬레이션이 필요하다.
자주 묻는 질문 (FAQ)
Q1. 드리밍 기능을 끌 수 있나요?
A. 워크스페이스 설정 → 메모리 → '자동 메모리 큐레이션' 토글로 OFF 전환이 가능합니다. 다만 OFF 상태에서는 세션 간 일관성 강화 효과가 사라집니다.
Q2. Pro 플랜만으로 충분히 체험 가능한가요?
A. 개인 Pro에서도 기본 드리밍 기능은 활성화됩니다. 다만 워크스페이스 단위 공유·관리자 권한·감사 로그는 Team/Enterprise 플랜에서만 제공됩니다.
Q3. 메모리가 잘못 자리잡으면 어떻게 복구하나요?
A. 메모리 패널에서 청크 단위로 삭제하거나 비활성화할 수 있습니다. 특정 시점으로의 일괄 롤백은 현재 지원되지 않으니, 중요한 워크스페이스는 수동으로 메모리 스냅샷을 주기적으로 내보내는 것을 권합니다.
Q4. 다른 도구의 메모리를 가져올 수 있나요?
A. 2026년 5월 기준 ChatGPT·Gemini 메모리 직접 가져오기는 지원되지 않습니다. 텍스트로 추출 후 수동 입력하는 방법뿐입니다.
Q5. 회사 정보가 학습에 쓰일까 걱정됩니다.
A. 워크스페이스 설정 → 데이터 → '모델 개선 기여' 토글을 OFF로 두면 기본적으로 학습에 사용되지 않습니다. Enterprise 플랜은 계약 단계에서 학습 거부가 기본값입니다.
마무리 — 9일 운영 후 결론과 실행 가능한 팁 3가지
'드리밍'이라는 단어는 마케팅적이지만, 그 안에서 일어나는 일은 LLM 도구가 사용자 워크플로에 적응하는 첫 자동화다. 자기진화는 아니지만 그 방향의 첫 걸음이다.
도입을 권하는 시나리오는 (1) 같은 톤·기준이 반복되는 팀 워크플로, (2) 신규 멤버 온보딩이 잦은 조직, (3) 프롬프트 관리에 피로감이 누적된 1인 개발자다. 반대로 권하지 않는 시나리오는 (1) 회사 정책상 자동 메모리 저장이 부담스러운 보안 민감 환경, (2) 같은 도구를 여러 프로젝트에 폭넓게 쓰며 컨텍스트 오염이 우려되는 컨설팅 업무다.
개인적으로는 5월 17일 현재까지 워크스페이스를 OFF로 되돌리지 않고 있다. 9일간 절감된 프롬프트 작성 시간이 메모리를 가끔 점검하는 비용보다 컸기 때문이다.
오늘 바로 실행할 수 있는 팁 3가지
- 워크스페이스 설정 → 데이터 → '모델 개선 기여' 토글을 먼저 점검하세요. 기본값을 OFF로 두어 학습 사용 여부를 명확히 통제하는 게 첫 단계입니다.
- 메모리 패널 즐겨찾기를 만들어 두고, 주 1회 직접 들여다보세요. 잘못된 청크가 자리잡기 전 발견하는 습관이 운영 안정성을 좌우합니다.
- 새 멤버가 합류하기 일주일 전 워크스페이스 톤·약어를 한 번 요약 정리해 두세요. 드리밍이 그 요약을 빨아들여 온보딩 속도가 눈에 띄게 빨라집니다.
참고 자료
- Anthropic 공식 블로그, "Introducing Dreaming for Managed Agents" (2026-05-06)
- Anthropic Documentation, "Memory and Workspace Configuration" (2026-05-09 갱신)
- The Verge, "Anthropic's 'dreaming' Claude rewrites itself overnight" (2026-05-09)
- The Information, "Inside Claude's Sleep-Time Compute Architecture" (2026-05-12)
- OpenAI Help Center, "How memory works in ChatGPT" (2026-04 갱신본)
- Google Workspace Updates, "Gemini Always-On Memory expansion" (2026-04-22)
- 자체 측정 — 5/7~5/16 사내 워크스페이스 50건 질의 일관성 평가 (3인 평가자)
by 정보연구소장 · 최종 검증 2026-05-17 · 문의: jikol2000@gmail.com
본 글은 5월 7일부터 16일까지 사내 워크스페이스에서 직접 측정한 응답 일관성·메모리 호출·토큰 사용 데이터를 바탕으로 작성됐습니다. 모든 수치는 자체 환경 기준이며 일반화에 한계가 있으니 자신의 워크플로에서 직접 측정해 보시길 권합니다.

댓글
댓글 쓰기