- GB300 NVL72, 호퍼 대비 메가와트당 처리량 최대 50배 향상저지연 환경 100만 토큰당 비용 35배 절감

 엔비디아, 블랙웰 울트라로 에이전틱 AI 추론 경쟁 본격화…성능 50배↑·토큰 비용 35배↓.jpg

 

 

 

엔비디아가 차세대 블랙웰 울트라 플랫폼을 공개하고 에이전틱 AI 추론 인프라 경쟁을 본격화했다. GB300 NVL72 시스템은 기존 호퍼 플랫폼 대비 메가와트당 처리량을 최대 50배 향상시키고, 저지연 환경에서 100만 토큰당 비용을 최대 35배 절감했다. 처리량과 토큰 비용을 동시에 낮추며 대규모 추론 환경의 총소유비용 구조를 크게 바꿨다.

 

에이전틱 AI 확산, 추론 인프라가 경쟁력 좌우

OpenRouter‘State of Inference’ 보고서에 따르면 AI 에이전트와 코딩 어시스턴트 확산으로 소프트웨어 프로그래밍 관련 AI 쿼리는 지난해 11%에서 약 50% 수준으로 급증했다. 다단계 워크플로 전반에서 실시간 반응성을 유지하려면 저지연 처리와 긴 컨텍스트 대응 역량이 필수 요건으로 자리 잡고 있다.

 엔비디아, 블랙웰 울트라로 에이전틱 AI 시대 가속… 성능 최대 50배↑·비용 35배↓.jpg

SemiAnalysis InferenceX 데이터는 블랙웰 울트라와 엔비디아 소프트웨어 최적화 기술의 결합이 성능과 비용을 동시에 개선했다고 분석했다. GB300 NVL72는 호퍼 대비 메가와트당 처리량을 최대 50배 향상시키고, 토큰당 비용을 최대 35배 절감했다. 총소유비용(TCO) 관점에서도 추론 워크로드의 경제성을 크게 높였다.

 

GB300 NVL72, 저지연 워크로드 성능 구조 개선

엔비디아 텐서RT-LLM, 다이나모, 문케이크, SGLang 등으로 구성된 공동 설계 소프트웨어 스택은 전문가 혼합(MoE) 추론 처리량을 전 구간에서 끌어올렸다. 최근 4개월 사이 저지연 워크로드 성능은 최대 5배 개선됐다.

 엔비디아 GB300 NVL72, 엔비디아 다이나모, 텐서RT-LLM 등으로 구성된 공동 설계 소프트웨어 스택은 엔비디아 호퍼 플랫폼 대비 토큰당 비용을 35배 절감한다.jpg

고성능 GPU 커널 최적화, NV링크 시메트릭 메모리, 프로그래매틱 디펜던트 런치 기술은 GPU 간 통신 효율을 높이고 유휴 시간을 줄였다. 칩과 시스템 아키텍처, 소프트웨어를 함께 설계하는 전략이 에너지 효율과 처리량을 동시에 끌어올렸다. 그 결과 GB300 NVL72는 지연 시간 전 구간에서 호퍼 대비 우수한 비용 구조를 구현했다.

 

긴 컨텍스트 환경에서 토큰 경제성 강화

GB300 NVL72128,000 토큰 입력과 8,000 토큰 출력을 처리하는 긴 컨텍스트 워크로드에서 강점을 보인다. GB200 NVL72 대비 토큰당 비용을 최대 1.5배 낮췄다. NVFP4 연산 성능은 1.5배 향상됐고 어텐션 처리 속도는 2배 빨라졌다. 대규모 코드베이스를 추론하는 에이전트 환경에서 처리 효율과 응답 속도를 동시에 확보할 수 있다.

 

 

클라우드 사업자, GB300 도입 확대

MS, 코어위브, OCI 등 주요 클라우드 사업자는 GB300 NVL72를 에이전틱 코딩과 긴 컨텍스트 활용 사례에 적용하고 있다. 토큰 비용을 낮추면서 대규모 코드베이스를 실시간으로 추론하는 환경을 구축하고 있다는 설명이다. 코어위브 첸 골드버그 엔지니어링 총괄 부사장은 긴 컨텍스트 처리 성능과 토큰 효율성이 AI 프로덕션 환경의 핵심 요소로 자리 잡았으며, GB300 시스템은 대규모 워크로드에서도 예측 가능한 성능과 비용 구조를 제공한다고 밝혔다.

 

차세대 루빈 플랫폼, 추가 도약 예고

엔비디아는 차세대 루빈(Rubin)’ 플랫폼을 통해 또 한 번의 성능 도약을 예고했다. 루빈은 6개의 신규 칩을 통합해 AI 슈퍼컴퓨터를 구성하며, MoE 추론에서 블랙웰 대비 메가와트당 최대 10배 높은 처리량과 100만 토큰당 10분의 1 수준 비용을 목표로 한다.

 

블랙웰 울트라와 루빈 플랫폼은 에이전틱 AI 시대에 필요한 대규모 추론 인프라 경쟁을 본격화하는 핵심 축으로 자리 잡을 전망이다.

 

#엔비디아 #BlackwellUltra #GB300NVL72 #에이전틱AI #AI추론 #MoE #TensorRTLLM #루빈

 

 
?

List of Articles
번호 분류 제목 글쓴이 날짜 조회 수
2276 벡터, 소프트웨어 타이밍 분석 기술 ‘록스탯’ 인수… 안전 필수 시스템 검증 강화 - VectorCAST 툴체인에 통합해 WCET 추정·타이밍 분석 기능 확대 - SDV 등 소프트웨어 정의 시스템에서 요구되는 타이밍 안전 대응 차량 네트워크와 임베디드 시... file newsit 2026.03.05 38
2275 아비바, 유니파이드 엔지니어링에 산업용 AI 대거 추가…설계 자동화·프로젝트 협업 강화 - 산업용 AI 어시스턴트·생성형 설계 AI 등 신규 기능 공개 - 데이터 중심 1D·2D·3D 통합 설계 환경 기반 엔지니어링 효율 향상 아비바가 자사의 엔지니어링 통합... file newsit 2026.03.05 36
2274 옥타브, 헥사곤 소프트웨어 사업 분사 추진…산업 자산 전주기 플랫폼 전략 출범 - 헥사곤 ALI·SIG 사업부와 브릭시스, ETQ, 프로젝트메이츠 통합 - 설계·구축·운영·보호 전 단계를 연결하는 산업 인프라 소프트웨어 포트폴리오 구축 옥타브가 ... file newsit 2026.03.04 47
2273 서비스나우, 생각하고 행동하는 ‘자율 인력’ 출시… 워크플로우 기반 AI 실행 구조 제시 - 역할·권한·거버넌스 갖춘 AI 전문가 투입… ‘임플로이웍스’로 약 2억 명 직원 지원 서비스나우가 기업 업무에 필요한 역할과 권한, 거버넌스를 갖추고 자율적으... file newsit 2026.02.27 42
2272 피아이이, ‘2026 스마트공장·자동화산업전’ 참가… 자율제조·AX 전환 엔드 투 엔드 역량 공개 - 피지컬·인텔리전스·엔터프라이즈 AI 3대 존 구성… 설계부터 통합 관제까지 전주기 구현 피아이이가 3월 4일부터 6일까지 서울 코엑스에서 열리는 ‘2026 스마트... file newsit 2026.02.27 43
2271 사이냅소프트, 사이냅 OCR IX 분당 500장 처리… 금융·공공 대량 트래픽 대응 구조 공개 - 처리 속도·정확도·보안 3요건 충족… 금융·공공 200건 레퍼런스로 현장 검증 도큐먼트 AI 전문 기업 사이냅소프트 전경헌 대표가 1월 출시한 ‘사이냅 OCR IX’의 ... file newsit 2026.02.27 42
2270 티유브이 슈드 코리아, 하우엔지니어링웍스와 기능안전·A-SPICE 통합 지원… 차량 반도체 글로벌 대응 체계 구축 - ISO 26262·A-SPICE 기반 기술 자문부터 인증까지 연계… 국내 기업 국제 표준 경쟁력 강화 전동화와 자율주행 확산으로 자동차 산업이 소프트웨어 중심 구조로 ... file newsit 2026.02.27 47
2269 가트너, 메모리 130% 급등… PC·스마트폰 시장 ‘출하 축소 기반 수익 방어’ 체제로 전환 - 원가 비중 23%로 상승·저가 세그먼트 급격 위축… 2026년 상반기 가격 전략 분기점 가트너가 메모리 가격 급등 영향으로 2026년 글로벌 PC 출하량이 전년 대비 1... file newsit 2026.02.27 35
2268 한국리미니스트리트, ‘제24회 대한민국 일하기 좋은 기업’ 선정…GPTW 7개 부문 수상 - 100대 기업 27위·부모가 일하기 좋은 기업 포함…존중·동료애·자부심 부문 우수 평가 한국리미니스트리트가 GPTW인스티튜트가 주관한 ‘제24회 대한민국 일하기 ... file newsit 2026.02.26 57
2267 시마AI, 스티가와 피지컬 AI 전략 파트너십 체결…로봇 잔디깎이에 엣지 AI 통합 - 초저지연·저전력 MLSoC 기반 실시간 의사결정 구현…자율 정원 장비 아키텍처 확장 시마AI가 유럽 정원용 기계·장비 제조 기업 스티가와 전략적 파트너십을 체결... file newsit 2026.02.26 40
목록
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 230 Next
/ 230
CLOSE