HOME
오늘의 뉴스

Home

2026.02.23 15:44

엔비디아, 블랙웰 울트라로 에이전틱 AI 추론 경쟁 본격화…성능 50배↑·토큰 비용 35배↓

newsit

https://hwlab.com/SW_Computing/19060 조회 수 42 추천 수 0 댓글 0

Extra Form
참조#1	https://blogs.nvidia.com/blog/inference-...per-token/
참조#2	https://openrouter.ai/state-of-ai
참조#3	https://inferencex.semianalysis.com/

단축키

Prev이전 문서

Next다음 문서

가 크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄 첨부

단축키

Prev이전 문서

Next다음 문서

가 크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄 첨부

- GB300 NVL72, 호퍼 대비 메가와트당 처리량 최대 50배 향상…저지연 환경 100만 토큰당 비용 35배 절감

엔비디아, 블랙웰 울트라로 에이전틱 AI 추론 경쟁 본격화…성능 50배↑·토큰 비용 35배↓.jpg

엔비디아가 차세대 블랙웰 울트라 플랫폼을 공개하고 에이전틱 AI 추론 인프라 경쟁을 본격화했다. GB300 NVL72 시스템은 기존 호퍼 플랫폼 대비 메가와트당 처리량을 최대 50배 향상시키고, 저지연 환경에서 100만 토큰당 비용을 최대 35배 절감했다. 처리량과 토큰 비용을 동시에 낮추며 대규모 추론 환경의 총소유비용 구조를 크게 바꿨다.

에이전틱 AI 확산, 추론 인프라가 경쟁력 좌우

OpenRouter의 ‘State of Inference’ 보고서에 따르면 AI 에이전트와 코딩 어시스턴트 확산으로 소프트웨어 프로그래밍 관련 AI 쿼리는 지난해 11%에서 약 50% 수준으로 급증했다. 다단계 워크플로 전반에서 실시간 반응성을 유지하려면 저지연 처리와 긴 컨텍스트 대응 역량이 필수 요건으로 자리 잡고 있다.

엔비디아, 블랙웰 울트라로 에이전틱 AI 시대 가속… 성능 최대 50배↑·비용 35배↓.jpg

SemiAnalysis InferenceX 데이터는 블랙웰 울트라와 엔비디아 소프트웨어 최적화 기술의 결합이 성능과 비용을 동시에 개선했다고 분석했다. GB300 NVL72는 호퍼 대비 메가와트당 처리량을 최대 50배 향상시키고, 토큰당 비용을 최대 35배 절감했다. 총소유비용(TCO) 관점에서도 추론 워크로드의 경제성을 크게 높였다.

GB300 NVL72, 저지연 워크로드 성능 구조 개선

엔비디아 텐서RT-LLM, 다이나모, 문케이크, SGLang 등으로 구성된 공동 설계 소프트웨어 스택은 전문가 혼합(MoE) 추론 처리량을 전 구간에서 끌어올렸다. 최근 4개월 사이 저지연 워크로드 성능은 최대 5배 개선됐다.

엔비디아 GB300 NVL72, 엔비디아 다이나모, 텐서RT-LLM 등으로 구성된 공동 설계 소프트웨어 스택은 엔비디아 호퍼 플랫폼 대비 토큰당 비용을 35배 절감한다.jpg

고성능 GPU 커널 최적화, NV링크 시메트릭 메모리, 프로그래매틱 디펜던트 런치 기술은 GPU 간 통신 효율을 높이고 유휴 시간을 줄였다. 칩과 시스템 아키텍처, 소프트웨어를 함께 설계하는 전략이 에너지 효율과 처리량을 동시에 끌어올렸다. 그 결과 GB300 NVL72는 지연 시간 전 구간에서 호퍼 대비 우수한 비용 구조를 구현했다.

긴 컨텍스트 환경에서 토큰 경제성 강화

GB300 NVL72는 128,000 토큰 입력과 8,000 토큰 출력을 처리하는 긴 컨텍스트 워크로드에서 강점을 보인다. GB200 NVL72 대비 토큰당 비용을 최대 1.5배 낮췄다. NVFP4 연산 성능은 1.5배 향상됐고 어텐션 처리 속도는 2배 빨라졌다. 대규모 코드베이스를 추론하는 에이전트 환경에서 처리 효율과 응답 속도를 동시에 확보할 수 있다.

클라우드 사업자, GB300 도입 확대

MS, 코어위브, OCI 등 주요 클라우드 사업자는 GB300 NVL72를 에이전틱 코딩과 긴 컨텍스트 활용 사례에 적용하고 있다. 토큰 비용을 낮추면서 대규모 코드베이스를 실시간으로 추론하는 환경을 구축하고 있다는 설명이다. 코어위브 첸 골드버그 엔지니어링 총괄 부사장은 “긴 컨텍스트 처리 성능과 토큰 효율성이 AI 프로덕션 환경의 핵심 요소로 자리 잡았으며, GB300 시스템은 대규모 워크로드에서도 예측 가능한 성능과 비용 구조를 제공한다”고 밝혔다.

차세대 루빈 플랫폼, 추가 도약 예고

엔비디아는 차세대 ‘루빈(Rubin)’ 플랫폼을 통해 또 한 번의 성능 도약을 예고했다. 루빈은 6개의 신규 칩을 통합해 AI 슈퍼컴퓨터를 구성하며, MoE 추론에서 블랙웰 대비 메가와트당 최대 10배 높은 처리량과 100만 토큰당 10분의 1 수준 비용을 목표로 한다.

블랙웰 울트라와 루빈 플랫폼은 에이전틱 AI 시대에 필요한 대규모 추론 인프라 경쟁을 본격화하는 핵심 축으로 자리 잡을 전망이다.

#엔비디아 #BlackwellUltra #GB300NVL72 #에이전틱AI #AI추론 #MoE #TensorRTLLM #루빈

Prev 엔비디아, NVFP4로 저정밀 AI 훈련·추론 경쟁 본격화…MLPerf서 FP...

엔비디아, NVFP4로 저정밀 AI 훈련·추론 경쟁 본격화…MLPerf서 FP... 2026.02.23by newsit 델 프라이빗 클라우드, 뉴타닉스 AHV 지원…멀티 하이퍼바이저 분... Next

델 프라이빗 클라우드, 뉴타닉스 AHV 지원…멀티 하이퍼바이저 분... 2026.02.23by newsit

Facebook Twitter Google Pinterest KakaoStory Band

Atachment
첨부 '4'	엔비디아, 블랙웰 울트라로 에이전틱 AI 시대 가속… 성능 최대 50배↑·비용 35배↓.jpg, 엔비디아 GB300 NVL72, 엔비디아 다이나모, 텐서RT-LLM 등으로 구성된 공동 설계 소프트웨어 스택은 엔비디아 호퍼 플랫폼 대비 토큰당 비용을 35배 절감한다.jpg, 엔비디아 GB300 NVL72는 저지연, 긴 컨텍스트 워크로드에 최적화된 시스템이다.jpg, 엔비디아, 블랙웰 울트라로 에이전틱 AI 추론 경쟁 본격화…성능 50배↑·토큰 비용 35배↓.jpg,

위로 아래로 게시글 수정 내역 댓글로 가기 인쇄 첨부

✔댓글 쓰기

에디터 선택하기

✔ 텍스트 모드 ✔ 에디터 모드

댓글 쓰기

에디터 사용하기 닫기

뉴스룸

List of Articles
번호	제목	글쓴이	날짜	조회 수
5503	엔비디아, NVFP4로 저정밀 AI 훈련·추론 경쟁 본격화…MLPerf서 FP8 대비 1.9배	newsit	2026.02.23	23
»	엔비디아, 블랙웰 울트라로 에이전틱 AI 추론 경쟁 본격화…성능 50배↑·토큰 비용 35배↓	newsit	2026.02.23	42
5501	델 프라이빗 클라우드, 뉴타닉스 AHV 지원…멀티 하이퍼바이저 분리형 전략 확대	newsit	2026.02.23	26
5500	삼성SDS, 2026년 5대 사이버 보안 위협 제시…AI 확산에 보안 대응 방식 전환 강조	newsit	2026.02.23	37
5499	엔비디아, 최신 게임 3종에 DLSS 4 적용…4K서 최대 3.8배 프레임 향상	newsit	2026.02.20	36
5498	엔비디아, 블랙웰로 추론 토큰 비용 최대 10배 절감…토크노믹스 전환 가속	newsit	2026.02.20	35
5497	엔비디아, 메타와 차세대 AI 인프라 공동 구축…CPU·블랙웰·루빈 GPU 통합 설계	newsit	2026.02.20	27
5496	카스퍼스키, 2026 동계 올림픽 겨냥 사이버 사기 경고…공식 채널 이용 강조	newsit	2026.02.20	26
5495	가민, 아시아 연구자에 웨어러블 로우 데이터 개방…디지털 헬스 연구 생태계 확대	newsit	2026.02.20	41
5494	마우저, 마이크로칩 PIC32WM-BZ6 멀티프로토콜 모듈 공급…IoT 통합 설계 지원	newsit	2026.02.20	35
5493	노조미 네트웍스, 랜섬웨어 70% 영어권 집중…OT·IoT 보안 리스크 확대	newsit	2026.02.20	24
5492	마우저, 인피니언 AURIX TC4x MCU 공급…6코어 500MHz·5Gb 이더넷 지원	newsit	2026.02.19	38
5491	머큐시스, 10Gbps 유선 환경 대응 ‘MA510E’ 출시	newsit	2026.02.19	28
5490	지멘스, HD현대 조선 플랫폼 디지털 백본 구축…2028년 운항 선박부터 적용	newsit	2026.02.19	37
5489	딥엘, AWS 마켓플레이스 입점…기업용 AI 번역 구매·운영 통합	newsit	2026.02.19	23
5488	벡터, 영역형 ECU·HPC 아키텍처 대응 ‘CANape 24’ 출시	newsit	2026.02.19	29
5487	델, 맥라렌 F1 설계부터 전략까지 AI로 재편	newsit	2026.02.19	23
5486	어플라이드 머티어리얼즈, 2026년 1분기 매출 70억1000만달러…D램·서비스 사상 최대	newsit	2026.02.13	56
5485	레이저, ‘BlackShark V3 for Xbox White Edition’ 출시	newsit	2026.02.13	118
5484	어플라이드 머티어리얼즈, 50억 달러 ‘EPIC 센터’에 삼성전자 합류 발표	newsit	2026.02.13	77

쓰기

한국리미니스트리트, ‘제24회 대한민국 일하기 좋은 기...	02-26
스틸시리즈, 25주년 팬 참여 캠페인 본격화…매달 25일 ...	02-26
카스퍼스키, 2025년 악성 이메일 공격 15% 증가…전 세...	02-26
시마AI, 스티가와 피지컬 AI 전략 파트너십 체결…로봇 ...	02-26
델, 혹독한 엣지 환경용 수랭 서버 ‘파워엣지 XR9700’ ...	02-26
스플렁크, AI 기반 보안 거버넌스 재편 선언…CISO 역할...	02-26
그룹아이비, ‘클라우드 보안 상태 관리(CSPM)’ 솔루션 ...	02-25
클라우드플레어, SASE 전 구간에 양자 내성 암호화 적...	02-25
세일즈포스, “AI 경쟁은 데이터 실행력”…84% 공감, 61%...	02-25
슈나이더 일렉트릭 코리아, 산업 자동화·스마트 에너지...	02-25

오늘의 뉴스

엔비디아, 블랙웰 울트라로 에이전틱 AI 추론 경쟁 본격화…성능 50배↑·토큰 비용 35배↓

단축키

단축키

뉴스룸