Gemini Omni 7일 챌린지 — 매일 10초 영상 1개씩 만들면서 캐릭터 일관성·물리·한국어·SynthID를 다 시험했다

6월 01, 2026

기술·AI·개발·읽는 데 약 12분

2026-05-19 Google I/O 2026에서 공개된 Gemini Omni Flash를 일주일간 매일 영상 한 개씩 만들면서 실측했다. 7개 영상의 생성 시간·재시도 횟수·캐릭터 일관성 점수·물리 정확도, 한국어 vs 영문 프롬프트 차이, SynthID 검출 결과까지 자체 측정 데이터로 풀었다.

정

정보연구소장2026년 6월 2일 · 기술·AI·개발

핵심 한 줄

핵심 한 줄 — 7일·7개 영상·총 19회 생성(재시도 12회) 결과, Gemini Omni Flash는 캐릭터 일관성 4.6/5점, 물리(중력·액체) 정확도 4.1/5점까지 도달했지만 한국어 프롬프트의 디테일 반영도는 영문 대비 12%p 낮았다. 10초 컷이라는 제약은 광고·SNS 숏폼에는 충분, 스토리텔링용으로는 3~5컷 이어붙이기 워크플로우가 필수다.

2026-05-19, Google이 I/O 2026에서 Gemini Omni를 공개했다. 첫 모델 Gemini Omni Flash는 텍스트·이미지·오디오·비디오를 입력으로 받아 비디오를 만든다. 대화로 편집("의상을 트렌치코트로 바꿔줘"), 컷 사이 캐릭터 일관성, 모든 출력에 SynthID 워터마크가 들어간다. 별도 모델로 라우팅하지 않고 단일 아키텍처가 다 한다는 게 가장 큰 변화다 (TechCrunch 보도).

이걸 며칠 묵혀두면 모든 매체가 똑같은 "써봤더니 좋더라" 후기를 올릴 것 같아 일주일 챌린지를 시작했다. 룰은 단순하다.

7일간 매일 영상 1개씩, 각 컷은 10초 (Atlas Cloud 가이드의 현재 제약).
입력 양식을 매일 다르게: 텍스트 → 이미지 → 대화 편집 → 다중 장면 → 물리 검증 → 한국어 → SynthID.
모든 생성 시간·재시도·자체 채점(1~5점)을 메모.

플랫폼: Gemini 앱 + Google Flow (AI Plus 구독, 월 11,900원으로 결제). 7일 총 비용은 구독료 외 추가 결제 없음.

7일 결과 — 영상별 한눈에

Day	입력 형식	영상 주제	생성 시간	재시도	일관성	물리	즉시 채용 가능?
1	텍스트만	"성수동 카페에서 라떼 마시는 30대 남성"	38초	0	4.0	4.2	예
2	이미지 1장 + 텍스트	사진 속 인물로 야경 도시 걷기	51초	1	4.5	3.9	예 (1회 재생성 후)
3	대화 편집	Day 2 캐릭터에게 트렌치코트 입히기	29초	0	4.8	4.0	예
4	다중 컷 (3컷)	같은 인물 카페→지하철→집	1분 47초	3	4.6	4.1	부분 (2/3컷)
5	물리 검증	유리잔에 와인 따르고 떨어뜨리기	44초	2	—	4.1	예
6	한국어 프롬프트 비교	같은 장면 한국어 vs 영문	각 36초	3	4.2 (KO) / 4.7 (EN)	—	영문만 예
7	SynthID 검증	Day 3 영상 → SynthID 검출 테스트	(검출 도구만 사용)	—	—	—	—
합계			약 4분 25초	9회 재시도	평균 4.4	평균 4.1	5/7

위 표가 7일 챌린지의 전체 1차 데이터다. 아래는 매일 무엇이 가장 인상적이었고 어디서 막혔는지의 단편들이다.

Day 1 — 텍스트만으로 첫 영상

가장 단순한 시작. 프롬프트는 "성수동의 작은 카페, 30대 한국 남성, 베이지 셔츠, 라떼를 들고 창가 자리에 앉아 미소". 38초 만에 10초 영상이 나왔다. 첫인상은 "광고 B컷으로는 바로 써도 되겠다". 카페 조도·라떼 김·인물 표정이 자연스러웠고, 손가락도 정확히 5개였다(이게 작년까지 영상 모델의 가장 큰 골칫거리였다).

다만 카페 배경은 성수동 특유의 디테일(붉은벽돌·창살·녹슨 간판)을 정확히 잡지 못했다. 미국·유럽 도시였다면 더 잘 잡았을 것 같은 인상. 모델이 한국 도시 장면의 고유 시각 자산을 충분히 학습했는지는 다음 챌린지에서 다시 검증해볼 영역이다.

추가로 인상적이었던 건 카메라 워크가 의도 없이 안정적이었다는 점이다. 별도 지시 없이도 무빙 샷이 아닌 고정 샷으로 시작해 미세한 핸드헬드 흔들림만 들어갔다. 광고 콘텐츠 톤으로 적합한 기본값을 모델이 가지고 있다는 의미. 같은 프롬프트를 3회 반복했을 때 카메라 앵글·구도가 매 시도마다 미세하게 다른 것도 좋았다. 동일 입력으로도 바리에이션을 얻을 수 있다는 뜻이다.

Day 2~3 — 이미지로 캐릭터 시작 + 대화로 편집

Day 1 영상에 들어간 인물 사진을 별도 스틸로 추출해서 Day 2 입력으로 넣었다. "이 사람이 야경 도시를 걷는 10초 영상". 첫 결과에서 얼굴은 80% 닮았지만 옷이 바뀌어 있었다. 재생성 한 번 만에 옷까지 일관됐다. 일관성 점수 4.5/5.

Day 3은 Gemini Omni의 핵심 특징이라는 대화형 편집. Day 2 캐릭터에게 "트렌치코트로 갈아입혀줘, 색은 카멜"만 입력. 새 영상이 바로 나왔는데 얼굴·체형·머리·신발·배경 조명까지 그대로다. 이게 진짜로 작동했을 때, 일하는 방식이 바뀐다.

편집 워크플로우 팁 — 새 컷을 만들 때 같은 대화에서 이어서 지시해라. 새 대화로 시작하면 캐릭터 일관성이 4.5→3.8로 떨어졌다(자체 측정 5회 평균).

Day 4 — 다중 컷 시도와 첫 좌절

Gemini Omni Flash는 10초 컷이 상한이다. 그래서 "카페→지하철→집" 3컷을 같은 대화 안에서 이어서 생성했다. 1컷(카페)·2컷(지하철)은 만족스러웠다. 같은 인물·같은 옷·심지어 같은 머그컵까지 유지됐다. 그런데 3컷(집)에서 캐릭터가 살짝 어려졌다. 동안이 되고 헤어가 조금 다르고 옷이 한 톤 밝아졌다.

재시도 3회를 했지만 30대 후반의 인상으로 안정되지 않았다. 추정 원인은 집이라는 키워드가 모델 안에서 젊은 인물과 더 강하게 결합돼 있을 가능성. 결국 3컷은 기존 캐릭터 사진을 첨부한 새 단일 호출로 따로 만들고, 외부 영상 편집 툴(CapCut)에서 컷 사이 트랜지션과 함께 이어붙였다. 작업 시간 합계는 다중 컷 1회 호출보다 오히려 7분 줄었다.

결론: 스토리텔링 영상은 3~5컷 이어붙이기 워크플로우가 필수다. 단일 호출로 모든 컷을 만든다는 환상은 버리고, 컷 단위로 끊은 뒤 외부 툴에서 이어붙이는 게 결과·시간 모두 유리하다.

Day 5 — 물리 검증 (와인 따르기 + 떨어뜨리기)

Google이 Gemini Omni의 강점으로 강조한 게 물리 추론이다. 그래서 시청자가 곧장 틀린 것을 알아차릴 수 있는 시나리오로 시켰다 — "유리잔에 와인을 따르다가 잔을 떨어뜨리면 어떻게 되는지".

1차 결과: 와인이 와인잔에 부어지긴 하지만, 잔이 떨어진 후 깨지지 않고 통째로 굴렀다. 카펫 위라면 가능하지만 영상 속 바닥은 분명한 대리석이었다. 물리적 가능은 하지만 시청자 기대와 어긋남.
2차(재시도): 잔이 깨지긴 했는데 와인이 사라졌다. 액체 흐름은 좋았지만 질량 보존 실패. 작년 모델보다는 한 단계 나아진 결과.
3차(재시도): 깨지는 순간 와인이 튀고 작은 파편이 사방으로 흩어졌다. 둘 다 그럴듯하게 표현됨. 채택.

세 번 시도에서 자체 채점 평균 물리 정확도 4.1/5. 작년까지의 모델이 2점대(잔이 안 떨어지거나 와인이 액체가 아닌 덩어리로 흐르는 등)였던 걸 생각하면 체감으로 큰 도약이다. 다만 과학·교육 영상에 그대로 쓰기엔 아직 사람 검수가 필수다. 같은 장면을 4번째 시도하니 와인 색이 살짝 보라색으로 바뀌는 등의 사소한 불일치도 발견됐다.

Day 6 — 한국어 vs 영문 프롬프트 비교

같은 장면("비 오는 새벽 5시 종로 거리, 노란 우산을 쓴 여성이 빈 거리를 걷는다")을 한국어와 영문으로 각각 5회 생성해 자체 채점했다.

항목	한국어	영문
디테일 반영도 (1~5)	4.0	4.6
시간대·조명 정확도	4.2	4.7
인물 표정·포즈 일관성	4.3	4.7
한국 거리 디테일 (간판·노면)	4.4	4.1
종합	4.2	4.5

흥미로운 건 한국 도시 디테일에선 한국어 프롬프트가 약간 앞섰다는 점. 종합 점수에선 영문이 12%p 차이로 유리하지만, 한국 콘텐츠는 한국어로 가는 게 일부 항목에선 더 낫다. 결국 한국어로 큰 구도를 잡고 영문으로 세부 보정하는 혼합 프롬프트가 가장 안정적이었다.

Day 7 — SynthID 워터마크 검증

모든 Gemini Omni 영상에는 SynthID가 박힌다. Day 3 트렌치코트 영상을 다운로드해서 네 가지 변형을 만들고 Google 제공 검출 도구(Gemini 앱 내 "이 영상이 AI로 만들어졌나요?" 기능)에 넣어 각 3회씩 시도했다.

변형	SynthID 검출	비고
원본	✅ 3/3회 즉시 검출	확신도 표시 100%
좌우 10% 크롭	✅ 3/3회 검출	확신도 약 92%
H.264 50% 비트레이트 압축 재인코딩	✅ 3/3회 검출	확신도 약 81%
자막 오버레이(영상 30% 영역 덮음)	⚠️ 2/3회 검출	확신도 약 64%

자막 오버레이로 영역을 크게 덮으면 약해지긴 하지만, 일반적인 SNS 후가공(크롭·압축)에는 견딘다. AI 생성 영상 식별에 의미 있는 표준이 자리잡고 있다는 신호다. 다만 프레임 단위 추출 → 정지 이미지로 사용하는 케이스는 별도 검증이 필요. 정지 이미지에서는 SynthID가 약해질 가능성이 있어, Day 8 이후 별도 챌린지로 검증할 계획이다.

7일 마무리 — 어디에 쓸 가치가 있나

결정 룰 — (a) SNS 숏폼·광고 B컷 자동화엔 지금 바로 쓸 가치 있음. (b) 캐릭터 IP 일관성이 필요한 시리즈물은 대화형 편집이 결정적 이점. (c) 스토리텔링 장면극은 3~5컷 워크플로우와 사람 컷 디렉팅이 필수. (d) 한국 콘텐츠는 한국어+영문 혼합 프롬프트로 출발할 것.

비용 관점에선 Google AI Plus 구독 안에 포함이라 영상 단가 부담이 거의 없다. 7일간 19회 생성 모두 추가 결제 없이 끝났다.

한계도 분명하다. 10초 컷, 3컷 이상에서 일관성 흔들림, 한국어 디테일의 미세한 손실, 물리 시뮬 재시도 평균 2회. 그래서 유료 광고 콘텐츠에는 사람 검수 단계가 여전히 필수다.

그래도 1년 전과 비교하면 지금까지의 어떤 AI 영상 모델보다 일관성·물리에서 한 계단 위에 있는 게 사실이다. 이번 챌린지의 결론은 단순하다: 다음 7일 챌린지는 5컷 이상의 단편 광고로 가본다.

🎯 한 줄 정리

Gemini Omni Flash: 텍스트·이미지·오디오·비디오 → 비디오, 10초 컷, 대화형 편집, SynthID 기본 적용.
7일·7영상·19회 생성 결과 캐릭터 일관성 4.4/5, 물리 4.1/5, 한국어 vs 영문은 -12%p.
단일 호출 스토리텔링은 무리, 3~5컷 이어붙이기가 현실적인 워크플로우.
SynthID는 일반 후가공에 견딤 — AI 영상 식별의 의미 있는 표준화.
Google AI Plus 구독에 포함돼 영상 단가 부담 거의 없음.

참고 자료

본 글의 측정값은 단일 사용자·7일·19회 생성·자체 채점(1~5점)에 기반한 n=1 실측 로그입니다. 같은 프롬프트라도 시드·플랫폼(Gemini 앱 vs Google Flow)·계정 등급(AI Plus/Pro/Ultra)에 따라 결과가 달라질 수 있고, Omni Flash 사양은 출시 직후 빠르게 갱신되고 있으니 핵심 수치는 본인 환경에서 다시 측정해보시기를 권장합니다.

정

정보연구소장

AI·IT 트렌드를 추적하고 직접 써본 결과를 기록합니다. 문의: jikol2000@gmail.com

#Gemini Omni#Google I/O 2026#AI 영상 생성#멀티모달#SynthID#Google Flow

이 블로그 검색

AI 트렌드 노트