NVIDIA Nemotron 3 Ultra 550B 출시 — '미국이 드디어 답한 오픈웨이트'를 풀어쓰는 4일간의 관찰

6월 08, 2026

AI·IT·읽는 데 약 12분

2026-06-04 NVIDIA가 550B 파라미터 MoE 오픈웨이트 Nemotron 3 Ultra를 풀었다. 1M 컨텍스트, NVFP4, 하이브리드 Mamba-Transformer. 본문은 벤치마크 숫자를 다시 늘어놓는 대신, 'NVIDIA가 왜 지금 모델 자체를 푸는가'를 H200 임대료와 라이선스 원문까지 끌고 들어가 답한다.

정

정보연구소장2026년 6월 8일 · AI·IT

핵심 한 줄

핵심 한 줄 Nemotron 3 Ultra 550B는 미국이 처음으로 진지하게 내민 1M 컨텍스트·MoE 오픈웨이트다. 이걸 단순히 "또 하나의 모델"로 쓰면 큰 그림을 놓친다. 칩 회사가 모델 자체를 푸는 순간, AI 인프라의 가격 곡선이 어디로 휘는지가 더 중요한 질문이다.

3월에 MiniMax M3가 1M 컨텍스트를 들고 나왔을 때 한국 X(트위터) 타임라인의 분위기는 "또 중국이 오픈으로 한 발 앞섰다"였다. 두 달 동안 미국 진영의 오픈웨이트 답은 사실상 없었다. Llama 4는 6월 초까지 잠잠했고, Mistral은 유럽 유료 모델로 무게중심을 옮긴 상태였다. 그 공백이 길어지던 5월 말부터, NVIDIA가 Computex 2026 키노트 발표를 흘리기 시작했다. 그리고 2026-06-04, nvidia/Nemotron-3-Ultra-550B-A55B-Base가 Hugging Face에 조용히 올라왔다. 다운로드 카운터를 처음 본 게 발표 6시간 뒤였는데, 그때 이미 6,400회를 넘기고 있었다.

이 글은 그 4일 동안 모델 카드를 직접 받아 본 기록과, "왜 칩 회사가 굳이 모델 자체를 푸는가"라는 더 큰 질문을 같이 풀어본다. 벤치마크 숫자를 한 번 더 늘어놓는 글은 이미 충분히 많다. 부족한 건 그 숫자가 한국 개발자·기업에게 실제로 무엇을 바꾸는지의 해석이다.

1. 4일간 직접 모델 카드를 받아 본 인상

Hugging Face의 모델 카드를 처음 열었을 때 가장 먼저 눈에 띈 건 두 가지였다. 하나는 가중치 파일 크기가 BF16 기준 약 1.1TB, NVFP4 양자화 버전이 약 280GB라는 것. 둘은 "활성 파라미터 55B"라는 표시였다. 550B 중 매 추론 단계마다 켜지는 전문가(expert)는 55B만이라는 뜻이다. 같은 MoE 계열의 DeepSeek-V3.5(671B 중 활성 37B), MiniMax M3(456B 중 활성 45.9B)와 비슷한 설계 철학이지만, NVIDIA는 한 가지 다른 길을 택했다. 트랜스포머 레이어 일부를 Mamba 상태공간 레이어로 대체한 하이브리드 구조다.

모델	총 파라미터	활성 파라미터	컨텍스트	라이선스	비교 시점
Nemotron 3 Ultra	550B	55B	1M	NVIDIA Open Model	2026-06-04
MiniMax M3	456B	45.9B	1M	Apache 2.0	2026-03
DeepSeek-V3.5	671B	37B	128K	DeepSeek License	2026-04
Llama 4 Behemoth (미공개)	≈2T	288B	10M	Meta Community	발표만, 미공개
Qwen3.6-27B	27B (dense)	27B	256K	Apache 2.0	2026-04

표 안에서 가장 의미 있는 칸은 라이선스 열이다. NVIDIA Open Model License는 Apache 2.0보다 짧고 명확한 상업 이용 조항을 갖지만, "NVIDIA 칩 위에서의 최적화 권리"라는 흥미로운 단서가 들어 있다. 풀어 쓰면 "이 가중치는 다 가져가서 써도 된다. 다만 NVIDIA가 자체 칩 위에서 더 빠르게 돌리는 최적화 결과물(NIM 런타임 등)은 별개의 IP다"라는 선언이다. 모델을 풀어주면서도 추론 인프라 시장의 해자(moat)를 동시에 강화하는 라이선스 구조다.

메모 오픈웨이트는 가중치만 푼다. 학습 데이터·학습 코드는 비공개다. 진정한 의미의 오픈소스(MIT/Apache 식)와는 거리가 있다. 그래도 "다운로드해서 자체 호스팅 가능 + 파인튜닝 자유"라는 두 조건은 모두 충족한다.

2. NVIDIA가 칩 회사인데, 왜 굳이 모델을 푸는가

이 질문이 기사 헤드라인보다 훨씬 더 중요하다. 답은 세 층으로 갈린다.

첫째 층은 수요 견인이다. 모델이 좋아야 모델을 돌리는 GPU 수요가 늘어난다. Nemotron 3 Ultra는 같은 추론량을 처리할 때 동급 오픈모델 대비 5배 처리량이라고 NVIDIA가 명시한다. 5배 빠르다는 건 같은 H200 한 장으로 더 많은 요청을 처리한다는 뜻이지만, 동시에 "이 모델은 NVIDIA 칩 위에서 가장 잘 돈다"라는 시그널이기도 하다. 양자화 포맷이 NVFP4 — NVIDIA가 정의한 4비트 부동소수점 — 라는 점이 결정적이다. AMD MI400X·인텔 Gaudi 3 위에서는 같은 가중치를 받아도 NVFP4 단가 이점을 누리지 못한다. 결국 칩-모델-런타임을 한 회사가 정합시킨다는 점에서, Apple이 M칩-iOS-앱스토어를 묶었던 구도와 닮아 간다.

둘째 층은 에이전트 시장 선점이다. NVIDIA 기술 블로그가 강조하는 단어는 "long-running agents"다. 이건 다음과 같이 풀린다. 2026년 기업 시장의 LLM 사용 패턴이 일회성 채팅에서, 며칠씩 도는 자율 에이전트로 무게중심이 옮겨가고 있다. 24시간 이상 도는 에이전트는 두 가지를 동시에 요구한다. 긴 컨텍스트(1M)와 토큰당 단가다. Nemotron 3 Ultra는 두 변수를 동시에 만족시키도록 설계됐다. SWE-bench·Terminal-bench 2.0에서 "더 적은 토큰으로 같은 정답에 도달했다"는 NVIDIA의 보고는, 단위 작업당 GPU 시간을 줄여주는 직접적인 지표다. 한국 기업이 24시간 도는 백오피스 에이전트를 도입할 때, 이 단가 절감이 그대로 분기 운영비로 잡힌다.

셋째 층은 개방형 표준 만들기다. OpenAI·Anthropic이 클로즈드 모델로 시장을 장악할 경우, NVIDIA는 단순한 GPU 공급자로 격하될 위험이 있다. 모델을 직접 풀어서 "오픈 진영의 사실상 표준" 위치를 차지하면, NIM·NeMo·CUDA로 이어지는 풀스택 매출의 기반이 단단해진다. Llama 4가 늦어진 사이, NVIDIA가 그 자리를 가져가려 한다고 읽는 게 자연스럽다.

3. 한국 개발자 입장에서 따져본 실제 사용 시나리오

여기부터가 실용 영역이다. 4일 동안 가능한 시나리오를 추려 봤다.

자체 호스팅은 사실상 불가능에 가깝다. 1.1TB BF16 가중치를 다 메모리에 올리려면 H100 80GB 8장(=640GB)으로도 모자란다. NVFP4 양자화 버전(약 280GB)이면 H200 141GB 2장에 들어가지만, 1M 컨텍스트로 돌리려면 KV 캐시 메모리가 폭발한다. 실측 기준 1M 컨텍스트를 안정적으로 돌리려면 H200 8장이 현실적 최소 사양이다. Lambda Labs의 2026년 6월 첫주 가격표 기준 H200 시간당 약 $4.49, 8장 한 노드 시간당 약 $35.9. 한 달 풀 가동 시 약 $26,000이 든다. 스타트업 한두 명이 사이드로 굴리기엔 무거운 숫자다.

그래서 현실적인 진입 경로는 세 가지로 좁혀진다. NVIDIA NIM(NIM API 형태로 NVIDIA가 직접 호스팅), OpenRouter / Together AI(서드파티 호스팅 풀), Brev / RunPod(시간 단위 임대 후 자체 실험)다. NIM은 출시 직후부터 100만 토큰당 약 $1.20 수준으로 가격이 공개됐고, 이는 Claude Opus 4.7 입력 단가 약 $15와 비교하면 한 자릿수 분의 일 수준이다. 출력 토큰 단가까지 합쳐도 일관되게 10배 이상 싸다. 절대 가격만 보면 매력적이다.

다만 단가가 곧 도입 결정의 모든 변수는 아니다. 한국 SaaS 업체 두 곳에 비공식적으로 물어본 결과(2026-06-05~06-07 카카오톡 인터뷰, 신원 비공개), 둘 다 "단가는 좋은데 한국어 응답 품질을 직접 평가해야 한다"고 답했다. 특히 한 곳은 자체 RAG 파이프라인 위에서 답변의 한국어 자연스러움 점수가 GPT-5.5 Mini 대비 약 15~20% 떨어진다는 초기 인상을 전했다. 모델 카드의 학습 데이터 비율을 보면 영어 비중이 압도적이고, 한국어는 "지원 언어 25종"에 포함된 정도다. 한국어 도메인에서 풀어쓴 톤 자체가 매끄럽지 않을 가능성은 충분히 있다.

주의 위 한국어 응답 품질 인상은 두 곳의 초기 비공식 평가다. 정식 벤치마크가 아니라 도입 전 일회성 큐레이션 결과라는 점을 감안할 것. 자체 도메인에서는 반드시 본인 데이터로 A/B 비교를 권장.

4. 벤치마크 숫자 뒤에 숨은 진짜 비교

Artificial Analysis Intelligence Index 48점이라는 수치는 "오픈웨이트 미국 1위"라는 헤드라인을 만들기 좋다. 하지만 같은 표 안에서 Kimi K2.6(중국, 1조 파라미터급)이 54점, Claude Opus 4.7이 79점 안팎이라는 비교군을 같이 봐야 한다.

여기서 인사이트는 단순한 순위가 아니라 "어디서 격차가 줄어들고 있는가"다. 코드 생성·에이전트 워크로드에 특화된 SWE-bench·Terminal-bench 2.0 같은 도메인 벤치에서 Nemotron 3 Ultra는 GPT-5.5 Instant와 거의 동률의 점수를 낸다. 일반 추론(MMLU-Pro)에서는 격차가 더 벌어진다. 풀어 쓰면, "에이전트가 실제로 돌릴 코딩·도구 사용 영역에선 클로즈드 빅쓰리에 근접했지만, 추상적 추론·복잡한 수학에서는 아직 한 세대 뒤다." 도입 결정 시 이 도메인별 격차가 핵심 변수가 된다. 모든 워크로드를 클로즈드로 굴리는 비용을 들이지 않고, 에이전트 백엔드만 오픈웨이트로 갈아 끼우는 하이브리드 전략이 합리적인 이유다.

5. 그래서 지금 무엇을 해야 하는가

4일을 따라가며 정리한 행동 가이드는 셋이다.

첫째, 사내 LLM 코스트가 분기 $5,000을 넘는 한국 SaaS 팀은 NIM이나 OpenRouter로 Nemotron 3 Ultra를 깔고 자체 도메인 한국어 평가셋에서 A/B 테스트를 돌려볼 만하다. 같은 도메인에서 GPT-5.5 Mini를 70% 대체 가능하다면 분기 1만 달러 단위 절감이 나온다.

둘째, 개인 개발자·1인 SaaS는 직접 호스팅을 시도하지 말고 OpenRouter를 통해 토큰당 종량제로 우선 써 본 뒤, 한 달 사용량이 5천만 토큰을 넘는 시점부터 Together AI나 Fireworks 같은 풀에 전용 슬롯 임대를 고려하는 게 비용 곡선상 합리적이다.

셋째, "오픈웨이트 = 보안 좋음"이라는 단순화는 위험하다. 모델 가중치를 자체 호스팅한다고 데이터가 클라우드를 나가지 않는다는 보장이 자동으로 생기는 게 아니다. 인프라 설계(VPC, 키 관리, 로그 분리)를 같이 봐야 비로소 "내부 데이터로 LLM 쓴다"가 성립한다. 이번 출시가 만든 "오픈웨이트 본격 도입" 분위기 위에서, 보안 부채를 같이 점검하지 않으면 도입 자체가 새로운 리스크가 된다.

🎯 핵심 정리

Nemotron 3 Ultra는 미국 진영이 두 달간 비어 있던 1M 컨텍스트·오픈웨이트 자리를 채우는 신호탄이다.
칩 회사가 모델을 푸는 이유는 수요 견인, 에이전트 시장 선점, 사실상 표준 확보의 세 층으로 갈린다.
자체 호스팅은 비현실적, NIM/OpenRouter 경유가 현실적 진입 경로. 단가는 클로즈드 대비 10배 이상 싸다.
한국어 품질은 아직 검증 필요. 자체 도메인 A/B 비교 없이 단가만 보고 갈아끼우면 운영 사고가 난다.

참고 자료

본 글의 가격·벤치마크 수치는 2026-06-04~06-08 사이 NVIDIA 공식 모델 카드, Hugging Face 페이지, Lambda Labs 가격표 그리고 한국 두 SaaS 업체와의 비공식 카카오톡 인터뷰를 교차해 정리한 n=1 관찰입니다. 모델 라이선스·사양·가격은 NVIDIA·서드파티 호스팅 정책 변경에 따라 달라질 수 있으니 도입 전 1차 출처로 재확인하시길 권장합니다.

정

정보연구소장

AI·IT 트렌드를 추적하고 직접 써본 결과를 기록합니다. 문의: jikol2000@gmail.com

#NVIDIA#Nemotron#오픈웨이트#MoE#AI 에이전트#LLM 인프라

이 블로그 검색

AI 트렌드 노트