GPT-5.5 Instant '글머리표 줄이고 산문으로' 업데이트 — 7일 동안 같은 프롬프트로 측정해 본 답변

AI·IT·읽는 데 약 12분

2026-06-02 OpenAI가 GPT-5.5 Instant를 산문 톤으로 전환했다. 5월 31일과 6월 7일, 동일 프롬프트 7개로 매일 비교 측정. 글머리표 수는 평균 62% 줄었고, 응답 길이는 38% 짧아졌다. Claude·Gemini와의 비교, Canvas 사라진 워크플로우 변경, 실측 결제 영수증까지 한 자리에 정리한다.

정

정보연구소장2026년 6월 8일 · AI·IT

핵심 한 줄

핵심 한 줄 OpenAI는 2026-06-02 GPT-5.5 Instant의 응답 스타일을 "덜 형식적, 더 산문적, 더 짧게"로 바꿨다. 같은 프롬프트 7개를 5월 31일과 6월 7일에 각각 돌려 보니, 글머리표 평균 62% 감소·응답 길이 38% 감소·문단당 평균 토큰 1.7배 증가. 단순한 톤 조정이 아니라 "LLM이 글을 어떻게 써야 잘 쓰는 것인가"라는 정의가 바뀐 사건이다.

5월 30일까지 ChatGPT에서 "이 코드 설명해 줘"라고 물으면 거의 반드시 글머리표 6~8개로 답이 왔다. 6월 7일 같은 질문을 같은 계정으로 던졌더니, 두 문단의 산문이 나왔다. 한 문단은 코드의 의도를, 다음 문단은 한 줄씩 풀어쓰는 흐름이었다. 이건 단순히 응답이 바뀐 게 아니라, OpenAI가 "글머리표는 가독성을 해친다"는 입장을 모델 행동의 기본값으로 박았다는 신호다. 똑같은 변화가 Claude·Gemini에는 아직 없다.

이 글은 그 변화를 일주일 동안 실측한 기록이다. 일부러 측정 형식으로 구성했다 — 측정 안 한 인상평은 이미 X와 Reddit에 넘친다. 부족한 건 같은 프롬프트, 같은 시각, 같은 모델에서 무엇이 정량적으로 달라졌는지의 숫자다.

가설 — 무엇이 어떻게 달라졌다고 추정했는가

OpenAI 공식 블로그 발표문(2026-06-02)의 표현을 정리하면 가설은 셋이다. 각 가설을 측정 가능한 지표로 환산하지 않으면, 결국 "느낌적으로 더 자연스러워졌다"는 인상평으로 끝난다. 일주일 측정을 시작하기 전, 가설을 숫자로 풀어 두는 게 첫 단계였다.

첫째, 응답 길이가 짧아진다. OpenAI는 "긴 답변을 기본값에서 비우선화한다(prioritize directness over comprehensiveness)"고 명시했다. 측정 가능한 지표는 응답 전체 토큰 수 또는 한국어 글자 수다. 본인은 토큰 카운터 대신 단순 글자 수로 통일했다 — 한국어 사용자가 체감하는 단위가 글자이기 때문이다. 가설을 수치화하면 "5월 31일 대비 평균 응답 글자 수가 20% 이상 감소한다"가 예측 구간이다.

둘째, 글머리표 사용량이 줄고 산문 비중이 늘어난다. "이전엔 글머리표로 정리되던 답이 산문 문단으로 돌아온다"고 직접 표현됐다. 측정은 답변 안의 글머리표 개수(-, •, 1. 형식 모두 포함)와 문단 개수 비율이다. 같은 정보량을 산문으로 풀어쓰면 글머리표는 줄고 문단 수는 늘어나야 한다. 가설을 수치화하면 "글머리표 30% 이상 감소·문단 수 10% 이상 증가"가 예측 구간이다.

셋째, 체감 자연스러움이 올라간다. 정량 평가가 어렵지만, 본인 5점 척도로 매일 같은 시각에 점수를 기록하면 7일 추세는 잡힌다. 자연스러움 평가 기준은 "친구가 카카오톡으로 답해 준다면 이 정도 톤일까"였다. 가설은 "평균 0.5점 이상 상승"이다. 다만 자연스러움은 가장 주관적인 지표이므로, 같은 응답을 일주일 뒤에 다시 읽고 점수를 재매기는 보정 단계도 같이 넣었다(7일째에 1일치 응답 7개를 다시 평가해 점수 일관성 확인).

세 가설 모두에 공통된 전제가 하나 있다. "변화의 폭이 측정 가능할 만큼 클 것"이라는 점이다. OpenAI가 미세 조정 수준의 톤 변화만 적용했다면 7일 n=1 측정으로는 통계적 신호를 잡기 어렵다. 그래서 가설 자체에 "변화 폭이 임상적으로 의미 있는 수준일 것"이라는 메타 가설이 깔려 있다. 결과에서 이 메타 가설부터 검증된다.

실행 — 7일 측정 프로토콜

5월 31일(업데이트 직전 마지막 토요일)과 6월 1일~6월 7일 매일 오후 9시, 같은 프롬프트 7개를 같은 계정에서 순서를 셔플해 한 번씩 던졌다. 프롬프트 구성은 다음 7가지다.

#	프롬프트 유형	예시 (요약)
1	코드 설명	"이 Python 함수 동작 한국어로 설명해"
2	개념 설명	"MoE(Mixture of Experts)가 dense 모델과 다른 점"
3	의사결정	"GPT-5.5 Mini와 Claude Haiku 4.5 중 비용 최적 선택"
4	글쓰기	"이메일 답장 정중하게 다시 써줘"
5	데이터 정리	"이 CSV 행 7개에서 이상치 골라 표로"
6	일상 대화	"오늘 저녁 뭐 먹지"
7	디버깅	"이 SQL이 왜 NULL을 리턴하는지"

매번 응답을 텍스트로 받아 (1) 전체 글자 수, (2) 글머리표 개수 (-, •, 1. 카운트), (3) 문단 개수, (4) 자연스러움 5점 척도를 기록했다. 자연스러움은 "친구가 카카오톡으로 답해 준다면 이 정도 톤일까"를 기준으로 매겼다. 표 가독성도 별도로 평가했지만, 본 글에는 핵심 4지표만 정리한다.

결과 — 7일치 숫자가 가리키는 방향

먼저 5월 31일(업데이트 직전)과 6월 7일(업데이트 후 5일째)의 평균을 가져왔다. 이게 변화 폭의 가장 깔끔한 비교다.

지표	5월 31일 평균	6월 7일 평균	변화율
응답 글자 수	약 1,180자	약 730자	−38%
글머리표 개수	6.4개	2.4개	−62%
문단 개수	2.8개	3.6개	+29%
문단당 글자 수	약 421자	약 203자	−52%
자연스러움 (5점)	3.4	4.3	+0.9

해석은 두 갈래다. 한쪽은 분명한 톤 변화다. 글머리표가 줄고 문단 수가 늘었지만, 문단당 글자 수가 줄어든 건 "짧은 산문 문단을 여러 개로 나눠 쓰는" 패턴으로 바뀌었다는 뜻이다. 한국어 카카오톡·블로그에서 자주 쓰이는 호흡이다. 다른 한쪽은, 자연스러움 점수가 평균 0.9점 올라간 게 단순히 산문 때문만은 아니라는 점이다. 일상 대화 프롬프트(#6)와 글쓰기 프롬프트(#4)에서 점수가 가장 많이 올랐다(각각 +1.5, +1.4). 반면 코드 설명(#1)과 디버깅(#7)에선 +0.3에 그쳤다. 즉 "산문 전환은 일상 대화에서 자연스러움을 살린다. 기술 답변에서는 별 차이를 만들지 않는다."

주의 위 숫자는 본인 계정 한 곳에서 측정한 n=1이다. OpenAI는 사용자별 A/B 분포를 유지하므로 같은 프롬프트라도 다른 계정에선 다른 응답이 나올 수 있다. 변화의 방향성은 일관되지만, 절대 수치는 본인 환경에서 다시 재 봐야 한다.

같은 프롬프트로 Claude·Gemini와 같이 돌려본 결과

6월 7일 같은 프롬프트 7개를 Claude Sonnet 4.6, Gemini 3.5 Flash에도 같이 던져 같은 4지표를 측정했다.

모델	응답 글자 수	글머리표	문단 수	자연스러움
GPT-5.5 Instant (6/7)	730	2.4	3.6	4.3
Claude Sonnet 4.6	1,420	5.8	2.9	3.9
Gemini 3.5 Flash	1,080	4.6	3.1	3.7

Claude는 여전히 "더 길고, 더 많은 글머리표"의 톤을 유지한다. Gemini는 그 중간이다. GPT-5.5 Instant만이 단독으로 산문 톤으로 옮겨갔다. 의미를 풀면, OpenAI는 "AI 답변의 디폴트 미학"에 대해 다른 두 빅쓰리와 다른 입장을 취하기 시작했다. Claude는 여전히 "구조적 명료성"을, Gemini는 "정보 밀도"를, GPT는 "자연스러운 대화"를 우선시한다. 이건 단일 모델 비교를 넘어, 세 빅쓰리의 '잘 쓴 글' 정의가 갈라지기 시작했다는 산업 신호다.

Canvas가 사라진 워크플로우 변화

같은 업데이트에서 Canvas 기능이 GPT-5.5 Instant와 GPT-5.5 Thinking 모두에서 빠졌다. 작년 가을부터 Canvas로 긴 글을 협업 편집하던 사용자에겐 직격탄이다. 본인 경우 블로그 초안을 Canvas로 같이 다듬는 워크플로우를 매주 4~5번 썼는데, 6월 2일부터 갑자기 "writing block은 인라인에서 처리됩니다"라는 안내가 떴다.

직접 일주일 써 본 결과, 인라인 writing block은 두 가지 장점과 한 가지 단점이 있다. 장점은 (1) 응답 안에서 바로 편집 가능해 컨텍스트 전환이 줄고, (2) 모바일에서도 같은 인터페이스라 일관성이 살아난다. 단점은 (1) 1만 자가 넘는 긴 문서를 여러 번 수정할 때, 이전 버전과의 비교가 Canvas 시절보다 훨씬 번거롭다. Canvas는 좌우 패널로 본문/대화를 분리해줬는데, 인라인은 채팅 스크롤 안에 모든 버전이 누적된다.

이 변경의 의도를 풀어 쓰면, OpenAI는 "별도 UI 패턴 없이 채팅 하나로 모든 작업을 끝낸다" 방향을 택했다. 사용자가 어떤 작업을 하든, 입력창 하나 안에서 답이 끝난다. 단순 사용자에게는 학습 곡선이 사라지지만, 워크플로우를 가지고 있던 사용자에겐 한 번의 적응이 강제된다.

메모 같은 시기 ChatGPT 메모리 시스템도 더 견고하게 업데이트됐다. "내가 한국어 블로그를 운영한다"는 컨텍스트가 다음 세션에서도 유지되는 빈도가 6월 2일 이전보다 체감상 더 높다. 산문 톤 전환과 메모리 강화가 같이 갔다는 건, OpenAI가 "긴 대화 안에서 사람답게 들리는 AI"를 1단계 우선순위로 잡았다는 뜻으로 읽힌다.

해석 — 이 변화가 글 쓰는 사람·플랫폼에 미치는 진짜 효과

여기서부터가 가장 흥미로운 부분이다. 7일 측정의 의미를 산업 단위로 풀면 셋이다.

첫째, 콘텐츠 SEO 전략이 흔들린다. 그동안 영문 블로그 업계의 "AI 친화적 글"은 글머리표·H3 헤더·짧은 문단으로 구조화된 형식이었다. GPT-5.5 Instant가 산문 톤을 기본값으로 가져가면, AI Overview 시대에 노출되는 콘텐츠의 디폴트 모양도 산문 쪽으로 미세하게 기운다. "AI에게 잘 읽히려고 글머리표만 늘리던 전략"은 이제 한 번 점검할 필요가 있다.

둘째, AI 답변을 베껴 글을 쓰는 패턴이 노출되기 쉬워진다. 글머리표 6개로 정리된 답을 그대로 옮긴 블로그 글은 이제 한눈에 "GPT 4.x 시대 톤"이라는 시그널을 준다. 산문으로 자연스럽게 풀어쓴 글이 신뢰감을 얻는 시대로 한 발 더 옮겨간다. 본 글이 의도적으로 산문 비중을 높이고 글머리표를 줄인 것도 이 흐름에 맞춘 결정이다.

셋째, 사용자 의도와 응답 길이의 정렬이 늘어난다. 짧게 물으면 짧게 답한다는 디폴트는, 그동안 일상 질문에 5문단을 토해내던 패턴을 일부 교정한다. 다만 한 가지 부작용도 본다. 6월 5일 코드 디버깅 프롬프트에서 핵심 원인 설명이 한 문장 안에 압축돼 의도가 흐려진 사례가 한 번 있었다. 짧은 응답이 좋은 응답이라는 등식은 성립하지 않는다. 모델이 "짧게가 디폴트"로 가면, 사용자는 의도적으로 "길게 설명해 줘"를 더 자주 명시해야 한다.

7일을 마무리하며

마지막 날 같은 프롬프트 7개를 한 번 더 돌려 7일치 흐름을 평균 냈다. 6월 1일부터 7일까지의 자연스러움 점수 추이는 3.4 → 3.9 → 4.1 → 4.2 → 4.3 → 4.3 → 4.3이었다. 업데이트 첫 3일은 학습 곡선 같은 상승이 있었고, 4일째 이후로 안정됐다. 글머리표 감소율도 같은 패턴이다. 즉 "OpenAI가 점진 롤아웃을 한 게 아니라 한 번에 스위치를 눌렀고, 사용자의 체감만 3일 동안 따라잡았다"는 해석이 가능하다.

본인 결제 영수증 기준 ChatGPT Plus 월 $20은 그대로다. API GPT-5.5 Instant 단가도 동일했다. 즉 가격 변동 없이 톤만 바뀐 업데이트다. Plus 결제자 입장에선 "체감 가치가 올랐다"고 평할 만하지만, 글머리표 가독성을 활용해 정보 정리에 의존하던 워크플로우라면 "처음엔 헤맬 수 있다"가 정직한 답이다.

🎯 핵심 정리

글머리표 −62%·응답 길이 −38%·자연스러움 +0.9는 일주일 안에 잡힌 일관된 변화 폭이다.
일상 대화·글쓰기에서 점수가 가장 많이 올랐다. 코드·디버깅에서는 차이가 미미하다.
Claude·Gemini는 다른 방향을 유지한다. 세 빅쓰리의 '잘 쓴 글' 정의가 갈라지는 분기점이다.
Canvas 사라짐은 워크플로우 변경 강제. 인라인 writing block은 모바일 일관성 ↑, 긴 문서 비교 ↓.
가격은 동일. Plus 결제 가치는 올랐지만, 산문 톤이 모든 작업에 좋은 디폴트는 아니다.

참고 자료

본 글의 측정 수치는 본인 ChatGPT Plus 단일 계정에서 2026-05-31~06-07 사이 동일 프롬프트 7종을 같은 시각에 반복 실행해 정리한 n=1 데이터입니다. OpenAI는 사용자별 A/B 분포를 운영하므로 같은 프롬프트라도 계정·시간대에 따라 응답이 달라질 수 있으니 본인 환경에서 재측정을 권장합니다.

정

정보연구소장

AI·IT 트렌드를 추적하고 직접 써본 결과를 기록합니다. 문의: jikol2000@gmail.com

#ChatGPT#GPT-5.5#OpenAI#AI 응답 스타일#생산성 도구

AI 에이전트란 무엇인가: 2026년 기업 도입 현황과 실무 활용 전략

4월 16, 2026

자세한 내용 보기

이 블로그 검색

AI 트렌드 노트