5월 24, 2026의 게시물 표시

삼성 HBM4E 12단 첫 출하 — 내 AI API 청구서에 정말 들어올까, 직접 계산해봤다

이미지
반도체·AI 인프라 · 읽는 데 약 13분 2026-05-28 삼성이 HBM4E 12단을 SK하이닉스·마이크론보다 6개월 앞서 출하했다. NVIDIA Rubin Ultra에 들어간다는 이 칩이 내 월 API 비용에 어떤 차이로 돌아오는지, 동일 워크로드로 세 시나리오를 직접 시뮬레이션해 표로 정리했다. 정 정보연구소장 2026년 5월 31일 · 반도체·AI 인프라 핵심 한 줄 핵심 한 줄 — 삼성이 HBM4E 12단을 경쟁사보다 6개월 먼저 NVIDIA Rubin Ultra에 넣는다. 호재처럼 들리지만, HBM 자체 가격은 20% 오른다. 두 힘이 부딪치는 자리에서 내 API 청구서가 얼마로 바뀌는지를 표 하나로 보여주려 한다. 무슨 일이 일어났나 — 3줄 정리 2026-05-28, 삼성전자가 12단 HBM4E 샘플 첫 출하를 공식 발표했다. 동작속도 14Gbps(최대 16Gbps), 스택당 대역폭 최대 3.6TB/s. ( Samsung Newsroom ) SK하이닉스·마이크론 대비 약 6개월 선행. HBM3E 대비 속도 20%·용량 30% 향상. NVIDIA Rubin Ultra GPU에 우선 공급된다. ( Seoul Economic Daily ) 동시에 HBM3E는 2026년 약 20% 가격 인상이 예고됐다. HBM은 메모리 중 가장 수익성 높은 품목이고, 3사 모두 공장 캐파를 HBM 쪽으로 재배분 중이다. ( TrendForce ) 이 글이 다루는 질문 — "HBM4E가 빨리 나왔다"는 뉴스는 매년 반복된다. 그래서 내 워크로드의 월 비용은 어떻게 바뀌는가? 두 변수(가격 인상 vs 효율 개선)가 동시에 움직일 때 순효과는 얼마인가? 본론 1 — 내가 돌리는 워크로드부터 고정 추상적 시나리오로는 답이 안 나온다. 지난 30일 내 실제 API 호출 패턴을 기준선으로 잡았다. 사이드 프로젝트로 돌리는 한국어 RAG 챗봇 + 콘텐츠 자동화 스크립트의 합산 사용량이다. 항목 값 비고 월...

Antigravity 2.0 vs Claude Code, 7일 직접 돌려본 다이어리 — 같은 과제 5개를 양쪽에 넣어봤다

이미지
AI 코딩·개발자 도구 · 읽는 데 약 12분 2026-05-19 출시된 Google Antigravity 2.0과 Claude Code에 동일 과제 5개를 7일에 걸쳐 각각 돌렸다. 완료 시간·토큰 비용·합격 여부·사람 손 추가 시간을 일자별로 측정한 다이어리 + 측정 표. 정 정보연구소장 2026년 5월 31일 · AI 코딩·개발자 도구 핵심 한 줄 핵심 한 줄 — 7일 동안 동일 과제 5개를 두 도구에 동시에 넣었다. 결과는 한 줄: Claude Code가 지금 일을 끝내고, Antigravity 2.0은 언젠가 더 잘할 가능성이 있다. 왜 굳이 7일이나 — 실험 설계 2026-05-19, Google I/O에서 Antigravity 2.0이 공개됐다. 단일 IDE가 아니라 5개 surface(IDE·agy CLI·SDK·Browser Agent·Enterprise Platform)로 확장된 "agent-first 플랫폼"이라는 표현. 동시에 자동 업데이트가 기존 사용자 환경을 광범위하게 파손했다는 보고가 같은 주에 쏟아졌다. ( Revolution in AI ) 뉴스만 읽고 끝낼 일이 아니라고 봤다. 같은 워크로드를 양쪽에 넣어서 비교 가능한 숫자 가 나와야 의사결정이 된다. 그래서 5/22~5/28 7일 동안 다음을 고정했다. 📋 실험 조건 동일 과제 5개를 양쪽에 순서를 바꿔가며 투입 (편향 제거) 측정값: (1) 완료까지 wall-clock 시간 (2) 토큰 비용 (3) 1차 통과율 (4) 사람 손이 추가로 든 시간 양쪽 모두 default 세팅 사용. 커스텀 시스템 프롬프트·MCP 서버 동일하게 설치 동일 모델 티어 비교 (Antigravity는 Gemini 3.5 Flash, Claude Code는 Sonnet 4.6 + Opus 4.7 자동 라우팅) 5개 과제는 평소 일과의 지루한 부분 을 그대로 옮겼다. 화려한 데모 과제가 아니라 매일 만나는 종류. # 과제 카테고리 T1 Next...

Vertex AI가 사라졌다 — Gemini Enterprise Agent Platform 마이그레이션 Q&A 12개

이미지
클라우드·엔터프라이즈 AI · 읽는 데 약 13분 Google이 2026년 4월 Cloud Next에서 발표하고 5월 21일부로 콘솔에서 Vertex AI 명칭을 완전히 지웠다. Model Garden·AutoML·Endpoints는 어디로 갔는지, A2A와 MCP는 어떻게 다른지, 우리 코드는 그대로 돌아가는지를 12개 질문으로 정리했다. 정 정보연구소장 2026년 5월 30일 · 클라우드·엔터프라이즈 AI 핵심 한 줄 핵심 한 줄 — 5월 21일자로 Google Cloud Console에서 'Vertex AI' 이름이 사라졌다. 기능은 살아 있지만, '모델 우선' 계층이 '에이전트 우선' 계층 밑으로 내려갔다. 이 한 줄을 이해하면 나머지 변화가 거의 다 보인다. 무슨 일이 일어났나 — 한 페이지 타임라인 text 복사 2026-04-23 Google Cloud Next 2026 Las Vegas — Gemini Enterprise Agent Platform 발표 2026-05-04 주요 매체 상세 보도. 'evolution of Vertex AI'로 포지셔닝 2026-05-21 Console에서 'Vertex AI' 명칭 완전 제거 — 검색 시 신 페이지로 리디렉트 콘솔에 들어가 'Vertex AI'를 검색해도 더는 뜨지 않는다. Gemini Enterprise Agent Platform 페이지로 자동 리디렉트된다. 단순 리브랜딩이라면 화제가 안 됐겠지만, 이번엔 정보 구조(IA) 자체가 뒤집혔다. 기존에 '모델'이 1급 객체였던 자리에 이제 '에이전트'가 올라갔고, 모델 카탈로그는 그 아래로 내려간다. 같은 시기 OpenAI는 'Frontier'라는 엔터프라이즈 에이전트 운영 환경을 공개했고, ServiceNow·Accenture는 forward deployed engineering 프로그램으로 사내 에...

SubQ 12M 토큰: 트랜스포머 어텐션이 '깨졌다'는 말의 진짜 무게

이미지
LLM·아키텍처 · 읽는 데 약 10분 Subquadratic이 5월 5일 공개한 SubQ는 12M 토큰을 선형 비용으로 처리한다고 주장한다. SSA 아키텍처의 의미, RULER 128K 95% 성적의 무게, 그리고 1,000x 비용 절감 주장이 한국 개발자의 일상에 의미하는 것까지 분석 에세이로 풀었다. 정 정보연구소장 2026년 5월 30일 · LLM·아키텍처 핵심 한 줄 핵심 한 줄 — 12M 토큰을 선형 비용으로 돌린다는 SubQ의 주장이 사실이면, 'long context vs RAG' 논쟁의 무게중심이 long context 쪽으로 한 단계 이동한다. 다만 아직 자체 벤치마크뿐이라 환호와 유보를 동시에 들고 있어야 한다. 발단 — 왜 12M 토큰이 사건인가 2026년 5월 5일, Subquadratic이라는 신생사가 $29M 시드 라운드 발표와 함께 SubQ를 공개했다. 헤드라인 숫자는 두 가지였다. 첫째, 리서치 모델 기준 컨텍스트 윈도우 1,200만 토큰. 둘째, 풀가동 시 프런티어 모델 대비 컴퓨트 약 1,000배 감소. CEO Justin Dangel과 CTO Alexander Whedon(전 Meta GenAI 헤드)이 이끄는 팀이다. 이 숫자가 왜 사건인지 이해하려면 트랜스포머의 오래된 흉터부터 봐야 한다. 자기-어텐션은 시퀀스 길이 n에 대해 O(n²) 연산과 메모리를 요구한다. n이 1만 토큰일 때와 100만 토큰일 때, 연산량은 10,000배 차이다. 그래서 산업이 '100만 컨텍스트'를 광고해도 실제 가격표는 늘 같은 모양이었다. 길수록 거의 제곱으로 비싸진다. 이 한계를 푸는 방법은 보통 두 갈래다. (a) attention sparsity — 모든 토큰 쌍을 보지 않고 일부만 본다. (b) state-space / linear attention — Mamba 계열처럼 시퀀스를 다른 방식으로 인코딩한다. 두 갈래 모두 학계에서는 오래 연구되었지만, '프런티어 수준 성능'...

오픈AI 한국 협력 발표를 뜯어봤다 — '신뢰 기반 최신 AI 접근권'이 정말 의미하는 것

이미지
30초 TL;DR 5월 21일 OpenAI가 한국 정부·공공기관에 "신뢰 기반 최신 AI 접근권"을 공식 제공한다고 발표. 단순 ChatGPT Plus 한국 출시가 아니라 공공 영역 도입을 위한 정책·인프라 프레임이 핵심 . 협력의 본질은 (1) 데이터 주권 보장, (2) GPU 26만 대 인프라 활용, (3) 정부 인증 도입 절차 간소화 . 일본 2023·UAE 2024년 협력 모델의 한국형 변주. 단기 수혜자는 SI·컨설팅 업계, 중기적으로는 한국어 파인튜닝·RAG 솔루션 시장. 국내 LLM 진영(하이퍼클로바X·엑사원)에는 본격적인 격돌의 신호탄입니다. "공공 도입"이라는 단어 하나가 바꾸는 게임 OpenAI의 5월 21일 발표문은 한 페이지짜리 짧은 문서였지만, 한국 AI 시장의 향후 3년을 가르는 신호 로 읽힙니다. 핵심 문장은 이거 하나입니다. "OpenAI provides Republic of Korea government and public-sector institutions with trusted access to the latest OpenAI models, including GPT-5.5, under enterprise data-handling agreements." 번역하면 — "한국 정부와 공공기관에 GPT-5.5를 포함한 최신 모델을, 엔터프라이즈 데이터 처리 계약 아래 신뢰 기반으로 제공한다." 단순해 보이지만 세 가지 묵직한 함의가 숨어 있습니다. "public-sector institutions" — 행정부뿐 아니라 공공기관(공기업, 지방자치단체, 국립병원, 국립대학교)까지 포함된다는 명시. 한국 공공 AI 도입 절차에서 가장 큰 걸림돌이었던 '해외 클라우드 사용 제한'이 부분적으로 해제될 가능성. "trusted access" — 일반 ChatGPT Enterprise보다 한 단계...