- 블랙웰 울트라 512 GPU로 라마 3.1 405B 64.6정확도 유지하며 처리량·전력 효율 동시 개선

 

엔비디아, NVFP4로 AI 훈련·추론 성능과 효율성 동시 향상.jpg

 

 

 

 

엔비디아가 4비트 부동소수점 정밀도 ‘NVFP4’를 앞세워 저정밀 AI 훈련·추론 경쟁에 속도를 높였다. 최신 MLPerf 훈련 벤치마크에서 블랙웰 울트라 GPU 512개로 구성한 GB300 NVL72 시스템이 라마 3.1 405B 사전 훈련을 64.6분 만에 완료하며, FP8 기반 GB200 NVL72 대비 최대 1.9배 빠른 성능을 기록했다. 처리량과 전력 효율을 동시에 개선하면서도 정확도 요건을 충족해 저정밀 포맷의 상용 적용 범위를 넓혔다.

 

저정밀 연산 전략, 공동 설계로 성능 구조 전환

최신 AI 모델은 규모와 복잡도가 커지며 훈련과 추론에 필요한 연산 수요가 급증하고 있다. 엔비디아는 칩과 시스템 아키텍처, 소프트웨어를 통합 설계하는 공동 설계 전략으로 세대별 성능 향상 폭을 확대했다NVFP4는 블랙웰 아키텍처부터 도입한 4비트 부동소수점 정밀도 포맷이다. 포맷 설계와 실리콘 구현, 라이브러리 지원, 훈련 레시피, 추론 최적화를 하나의 스택으로 통합해 저정밀 연산의 처리량 이점을 실제 워크로드에 적용했다는 설명이다.

 

블랙웰 울트라, NVFP4 기준 최대 15페타플롭스

블랙웰 울트라 GPUNVFP4 기준 최대 15페타플롭스의 처리량을 제공하며, 동일 GPUFP8 대비 최대 3배 높은 연산 밀도를 구현한다. 엔비디아는 FP8에서 NVFP4로 전환할 경우 6,710억 매개변수 규모의 MoE 모델 딥시크-R1’ 추론에서 토큰 처리량이 향상된다고 설명했다. 훈련 영역에서도 성과를 제시했다. 512개의 블랙웰 울트라 GPU로 구성한 GB300 NVL72 시스템은 NVFP4를 적용해 라마 3.1 405B 사전 훈련을 64.6분 만에 완료했다. 이는 이전 라운드에서 FP8 정밀도로 동일 벤치마크를 수행한 512개 블랙웰 GPU 기반 GB200 NVL72 대비 최대 1.9배 빠른 결과다.

 

정확도 요건 충족LLM 전반 적용 확대

MLPerf 훈련·추론 비공개 부문은 엄격한 정확도 기준을 충족해야 유효 제출로 인정된다. 엔비디아는 NVFP4를 적용해 여러 거대 언어 모델(LLM) 테스트 항목에서 정확도 요건을 충족했다고 밝혔다. 딥시크-R1, 라마 3.1 8B·405B, 라마 2 70B 등 다양한 모델에서 결과를 제출했다.

 HGX B200에서 MTP 미적용 FP8, MTP 적용 FP8, MTP 적용 NVFP4의 처리량 대 상호작용 곡선.jpg

생태계 확장 가속글로벌 기업 참여 확대

엔비디아 모델 옵티마이저, LLM 컴프레서, torch.ao 등을 통해 고정밀 모델을 NVFP4로 양자화할 수 있으며, 텐서RT-LLM, vLLM, SGLang 등 주요 추론 프레임워크도 NVFP4 포맷을 지원한다. 허깅 페이스에서는 라마 3.3 70B, FLUX.2, 딥시크-R1-0528, Qwen3-235B-A22B, Nemotron Nano NVFP4 버전을 제공하고 있다.

 라마(Llama) 3.1 405B 사전 훈련과 라마 2 70B LoRA 파인튜닝 성능을 각각 512-GPU와 8-GPU 규모에서 평가했다.jpg

Black Forest Labs, Radical Numerics, Red Hat 등도 NVFP4 기반 훈련·추론을 확대하고 있다. 블랙 포레스트 랩스 로빈 롬바흐 CEOCUDA Graphs, torch.compile, NVFP4, TeaCache를 결합해 단일 B200에서 최대 6.3배 속도 향상을 달성했다고 밝혔다.

 

루빈 플랫폼, NVFP4 성능 추가 도약 예고

엔비디아는 차세대 루빈(Rubin) 플랫폼에서 NVFP4 기준 훈련 연산 35페타플롭스, 추론 50페타플롭스를 목표로 한다고 밝혔다. 이는 블랙웰 대비 각각 3.5, 5배 향상된 수치다. NVFP4를 훈련과 추론 전반에 확산해 처리량과 전력 효율을 동시에 개선하는 전략을 이어갈 계획이다.

 딥시크-R1 모델 평가 점수에서 NVFP4가 FP8 기준선의 정확도와 매우 유사하게 일치함을 보여준다.jpg

#엔비디아 #NVFP4 #블랙웰울트라 #GB300NVL72 #MLPerf #AI훈련 #AI추론 #저정밀연산 #루빈

 

 
?

List of Articles
번호 분류 제목 글쓴이 날짜 조회 수
2273 서비스나우, 생각하고 행동하는 ‘자율 인력’ 출시… 워크플로우 기반 AI 실행 구조 제시 - 역할·권한·거버넌스 갖춘 AI 전문가 투입… ‘임플로이웍스’로 약 2억 명 직원 지원 서비스나우가 기업 업무에 필요한 역할과 권한, 거버넌스를 갖추고 자율적으... file newsit 2026.02.27 38
2272 피아이이, ‘2026 스마트공장·자동화산업전’ 참가… 자율제조·AX 전환 엔드 투 엔드 역량 공개 - 피지컬·인텔리전스·엔터프라이즈 AI 3대 존 구성… 설계부터 통합 관제까지 전주기 구현 피아이이가 3월 4일부터 6일까지 서울 코엑스에서 열리는 ‘2026 스마트... file newsit 2026.02.27 40
2271 사이냅소프트, 사이냅 OCR IX 분당 500장 처리… 금융·공공 대량 트래픽 대응 구조 공개 - 처리 속도·정확도·보안 3요건 충족… 금융·공공 200건 레퍼런스로 현장 검증 도큐먼트 AI 전문 기업 사이냅소프트 전경헌 대표가 1월 출시한 ‘사이냅 OCR IX’의 ... file newsit 2026.02.27 39
2270 티유브이 슈드 코리아, 하우엔지니어링웍스와 기능안전·A-SPICE 통합 지원… 차량 반도체 글로벌 대응 체계 구축 - ISO 26262·A-SPICE 기반 기술 자문부터 인증까지 연계… 국내 기업 국제 표준 경쟁력 강화 전동화와 자율주행 확산으로 자동차 산업이 소프트웨어 중심 구조로 ... file newsit 2026.02.27 44
2269 가트너, 메모리 130% 급등… PC·스마트폰 시장 ‘출하 축소 기반 수익 방어’ 체제로 전환 - 원가 비중 23%로 상승·저가 세그먼트 급격 위축… 2026년 상반기 가격 전략 분기점 가트너가 메모리 가격 급등 영향으로 2026년 글로벌 PC 출하량이 전년 대비 1... file newsit 2026.02.27 32
2268 한국리미니스트리트, ‘제24회 대한민국 일하기 좋은 기업’ 선정…GPTW 7개 부문 수상 - 100대 기업 27위·부모가 일하기 좋은 기업 포함…존중·동료애·자부심 부문 우수 평가 한국리미니스트리트가 GPTW인스티튜트가 주관한 ‘제24회 대한민국 일하기 ... file newsit 2026.02.26 56
2267 시마AI, 스티가와 피지컬 AI 전략 파트너십 체결…로봇 잔디깎이에 엣지 AI 통합 - 초저지연·저전력 MLSoC 기반 실시간 의사결정 구현…자율 정원 장비 아키텍처 확장 시마AI가 유럽 정원용 기계·장비 제조 기업 스티가와 전략적 파트너십을 체결... file newsit 2026.02.26 39
2266 그룹아이비, ‘클라우드 보안 상태 관리(CSPM)’ 솔루션 출시…URP에 클라우드 보안 상태 관리 통합 - 설정 오류 자동 탐지·규정 준수 모니터링 제공…ASM·위협 인텔리전스 결합 그룹아이비가 통합 리스크 플랫폼(URP)에 ‘클라우드 보안 상태 관리(CSPM)’ 솔루션을 ... file newsit 2026.02.25 48
2265 세일즈포스, “AI 경쟁은 데이터 실행력”…84% 공감, 61%는 성과 연결 실패 - 국내 기업 84% 데이터 기반이 핵심이라 인식…글로벌 CIO는 AI보다 데이터 인프라에 4배 투자 세일즈포스가 한국 기업 500곳을 포함한 전 세계 약 8,000개 기업... file newsit 2026.02.25 47
2264 슈나이더 일렉트릭 코리아, 산업 자동화·스마트 에너지·BESS 통합 인프라 공개…현장 지능형 구조로 전력 밀도 대응 - 설비 제어부터 전력 보호·에너지 저장까지 하나의 운영 체계로 연결 - One Solution Provider 전략 본격화 슈나이더 일렉트릭 코리아가 산업 자동화와 스마트 ... file newsit 2026.02.25 44
목록
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 229 Next
/ 229
CLOSE