소프트웨어·컴퓨팅

2026.02.23 16:07

엔비디아, NVFP4로 저정밀 AI 훈련·추론 경쟁 본격화…MLPerf서 FP8 대비 1.9배

newsit

https://hwlab.com/SW_Computing/19066 조회 수 133 추천 수 0 댓글 0

Extra Form
참조#1	https://developer.nvidia.com/blog/inside...rcomputer/
참조#2	https://developer.nvidia.com/blog/introd...inference/

단축키

Prev이전 문서

Next다음 문서

가 크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄 첨부

단축키

Prev이전 문서

Next다음 문서

가 크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄 첨부

- 블랙웰 울트라 512 GPU로 라마 3.1 405B 64.6분…정확도 유지하며 처리량·전력 효율 동시 개선

엔비디아, NVFP4로 AI 훈련·추론 성능과 효율성 동시 향상.jpg

엔비디아가 4비트 부동소수점 정밀도 ‘NVFP4’를 앞세워 저정밀 AI 훈련·추론 경쟁에 속도를 높였다. 최신 MLPerf 훈련 벤치마크에서 블랙웰 울트라 GPU 512개로 구성한 GB300 NVL72 시스템이 라마 3.1 405B 사전 훈련을 64.6분 만에 완료하며, FP8 기반 GB200 NVL72 대비 최대 1.9배 빠른 성능을 기록했다. 처리량과 전력 효율을 동시에 개선하면서도 정확도 요건을 충족해 저정밀 포맷의 상용 적용 범위를 넓혔다.

저정밀 연산 전략, 공동 설계로 성능 구조 전환

최신 AI 모델은 규모와 복잡도가 커지며 훈련과 추론에 필요한 연산 수요가 급증하고 있다. 엔비디아는 칩과 시스템 아키텍처, 소프트웨어를 통합 설계하는 공동 설계 전략으로 세대별 성능 향상 폭을 확대했다. NVFP4는 블랙웰 아키텍처부터 도입한 4비트 부동소수점 정밀도 포맷이다. 포맷 설계와 실리콘 구현, 라이브러리 지원, 훈련 레시피, 추론 최적화를 하나의 스택으로 통합해 저정밀 연산의 처리량 이점을 실제 워크로드에 적용했다는 설명이다.

블랙웰 울트라, NVFP4 기준 최대 15페타플롭스

블랙웰 울트라 GPU는 NVFP4 기준 최대 15페타플롭스의 처리량을 제공하며, 동일 GPU의 FP8 대비 최대 3배 높은 연산 밀도를 구현한다. 엔비디아는 FP8에서 NVFP4로 전환할 경우 6,710억 매개변수 규모의 MoE 모델 ‘딥시크-R1’ 추론에서 토큰 처리량이 향상된다고 설명했다. 훈련 영역에서도 성과를 제시했다. 512개의 블랙웰 울트라 GPU로 구성한 GB300 NVL72 시스템은 NVFP4를 적용해 라마 3.1 405B 사전 훈련을 64.6분 만에 완료했다. 이는 이전 라운드에서 FP8 정밀도로 동일 벤치마크를 수행한 512개 블랙웰 GPU 기반 GB200 NVL72 대비 최대 1.9배 빠른 결과다.

정확도 요건 충족…LLM 전반 적용 확대

MLPerf 훈련·추론 비공개 부문은 엄격한 정확도 기준을 충족해야 유효 제출로 인정된다. 엔비디아는 NVFP4를 적용해 여러 거대 언어 모델(LLM) 테스트 항목에서 정확도 요건을 충족했다고 밝혔다. 딥시크-R1, 라마 3.1 8B·405B, 라마 2 70B 등 다양한 모델에서 결과를 제출했다.

HGX B200에서 MTP 미적용 FP8, MTP 적용 FP8, MTP 적용 NVFP4의 처리량 대 상호작용 곡선.jpg

생태계 확장 가속…글로벌 기업 참여 확대

엔비디아 모델 옵티마이저, LLM 컴프레서, torch.ao 등을 통해 고정밀 모델을 NVFP4로 양자화할 수 있으며, 텐서RT-LLM, vLLM, SGLang 등 주요 추론 프레임워크도 NVFP4 포맷을 지원한다. 허깅 페이스에서는 라마 3.3 70B, FLUX.2, 딥시크-R1-0528, Qwen3-235B-A22B, Nemotron Nano 등 NVFP4 버전을 제공하고 있다.

라마(Llama) 3.1 405B 사전 훈련과 라마 2 70B LoRA 파인튜닝 성능을 각각 512-GPU와 8-GPU 규모에서 평가했다.jpg

Black Forest Labs, Radical Numerics, Red Hat 등도 NVFP4 기반 훈련·추론을 확대하고 있다. 블랙 포레스트 랩스 로빈 롬바흐 CEO는 CUDA Graphs, torch.compile, NVFP4, TeaCache를 결합해 단일 B200에서 최대 6.3배 속도 향상을 달성했다고 밝혔다.

루빈 플랫폼, NVFP4 성능 추가 도약 예고

엔비디아는 차세대 루빈(Rubin) 플랫폼에서 NVFP4 기준 훈련 연산 35페타플롭스, 추론 50페타플롭스를 목표로 한다고 밝혔다. 이는 블랙웰 대비 각각 3.5배, 5배 향상된 수치다. NVFP4를 훈련과 추론 전반에 확산해 처리량과 전력 효율을 동시에 개선하는 전략을 이어갈 계획이다.

딥시크-R1 모델 평가 점수에서 NVFP4가 FP8 기준선의 정확도와 매우 유사하게 일치함을 보여준다.jpg

#엔비디아 #NVFP4 #블랙웰울트라 #GB300NVL72 #MLPerf #AI훈련 #AI추론 #저정밀연산 #루빈

Prev 윈드리버, MWC 바르셀로나서 AI-RAN 기반 엣지 AI 전략 공개…통신...

윈드리버, MWC 바르셀로나서 AI-RAN 기반 엣지 AI 전략 공개…통신... 2026.02.24by newsit 엔비디아, 블랙웰 울트라로 에이전틱 AI 추론 경쟁 본격화…성능 5... Next

엔비디아, 블랙웰 울트라로 에이전틱 AI 추론 경쟁 본격화…성능 5... 2026.02.23by newsit

Facebook Twitter Google Pinterest KakaoStory Band

Atachment
첨부 '4'	엔비디아, NVFP4로 AI 훈련·추론 성능과 효율성 동시 향상.jpg, HGX B200에서 MTP 미적용 FP8, MTP 적용 FP8, MTP 적용 NVFP4의 처리량 대 상호작용 곡선.jpg, 라마(Llama) 3.1 405B 사전 훈련과 라마 2 70B LoRA 파인튜닝 성능을 각각 512-GPU와 8-GPU 규모에서 평가했다.jpg, 딥시크-R1 모델 평가 점수에서 NVFP4가 FP8 기준선의 정확도와 매우 유사하게 일치함을 보여준다.jpg,

위로 아래로 게시글 수정 내역 댓글로 가기 인쇄 첨부

✔댓글 쓰기

에디터 선택하기

✔ 텍스트 모드 ✔ 에디터 모드

댓글 쓰기

에디터 사용하기 닫기

소프트웨어·컴퓨팅

다쏘시스템, AI ‘버추얼 동반자’ 공개…3D익스피리언스서 산업 공동 창작 체계 제시

- 아우라·레오·마리 통해 설계·엔지니어링·과학 전반 에이전틱 협업 구현 다쏘시스템이 3D익스피리언스 플랫폼에서 산업 전반의 설계·엔지니어링·과학 업무를 지원하는 AI 기반 ‘버추얼 동반자’를 공개하며, 인간과 AI가 실시간으로 공동 창작하는 에이전틱 협...

Date2026.02.24 Bynewsit Views133

Read More
윈드리버, MWC 바르셀로나서 AI-RAN 기반 엣지 AI 전략 공개…통신 인프라 운영 효율화 제시

- RAN·코어·IT 통합 오케스트레이션 구조로 5G 네트워크 현대화 가속 윈드리버가 스페인 바르셀로나에서 열리는 MWC Barcelona에서 AI-RAN 기반 엣지 AI 전략을 공개하며, RAN과 코어, IT 인프라 전반을 통합하는 자율 운영 네트워크 모델을 제시했다. 전 세계...

Date2026.02.24 Bynewsit Views113

Read More
엔비디아, NVFP4로 저정밀 AI 훈련·추론 경쟁 본격화…MLPerf서 FP8 대비 1.9배

- 블랙웰 울트라 512 GPU로 라마 3.1 405B 64.6분…정확도 유지하며 처리량·전력 효율 동시 개선 엔비디아가 4비트 부동소수점 정밀도 ‘NVFP4’를 앞세워 저정밀 AI 훈련·추론 경쟁에 속도를 높였다. 최신 MLPerf 훈련 벤치마크에서 블랙웰 울트라 GPU 512개로 ...

Date2026.02.23 Bynewsit Views133

Read More
엔비디아, 블랙웰 울트라로 에이전틱 AI 추론 경쟁 본격화…성능 50배↑·토큰 비용 35배↓

- GB300 NVL72, 호퍼 대비 메가와트당 처리량 최대 50배 향상…저지연 환경 100만 토큰당 비용 35배 절감 엔비디아가 차세대 블랙웰 울트라 플랫폼을 공개하고 에이전틱 AI 추론 인프라 경쟁을 본격화했다. GB300 NVL72 시스템은 기존 호퍼 플랫폼 대비 메가와...

Date2026.02.23 Bynewsit Views126

Read More
델 프라이빗 클라우드, 뉴타닉스 AHV 지원…멀티 하이퍼바이저 분리형 전략 확대

- 서버·스토리지 독립 확장 구조에 자동화 전 주기 적용, 투자 보호와 유연성 동시 강화 델이 ‘델 프라이빗 클라우드’에서 뉴타닉스 AHV를 공식 지원하며 멀티 하이퍼바이저 전략을 강화했다. 서버와 스토리지를 분리한 확장형 인프라 구조에 자동화 기반 운영...

Date2026.02.23 Bynewsit Views106

Read More
엔비디아, 블랙웰로 추론 토큰 비용 최대 10배 절감…토크노믹스 전환 가속

- 베이스텐·딥인프라·파이어웍스 AI·투게더 AI, 블랙웰 최적화 스택으로 효율 극대화 엔비디아가 블랙웰 플랫폼을 통해 주요 추론 서비스 제공업체들이 토큰당 비용을 최대 10배까지 낮추고 있다고 밝혔다. 오픈소스 모델과 블랙웰 기반 최적화 추론 스택을 결...

Date2026.02.20 Bynewsit Views81

Read More
엔비디아, 메타와 차세대 AI 인프라 공동 구축…CPU·블랙웰·루빈 GPU 통합 설계

- 스펙트럼-X 네트워킹·컨피덴셜 컴퓨팅 결합…전력 대비 성능·프라이버시 강화 엔비디아가 메타와 온프레미스와 클라우드를 아우르는 차세대 AI 인프라 구축을 위한 장기 전략적 파트너십을 체결했다고 밝혔다. CPU, 블랙웰·루빈 GPU, 스펙트럼-X 이더넷을 통...

Date2026.02.20 Bynewsit Views67

Read More
지멘스, HD현대 조선 플랫폼 디지털 백본 구축…2028년 운항 선박부터 적용

- Siemens Xcelerator 기반 설계·생산 전 공정 단일 데이터 흐름 연결 지멘스는 HD현대 중간 지주회사 HD한국조선해양이 통합 디지털 조선 플랫폼 구축을 위한 우선 협력사로 지멘스를 선정했다고 19일 밝혔다. Siemens Xcelerator를 기반으로 설계부터 생산까...

Date2026.02.19 Bynewsit Views93

Read More
딥엘, AWS 마켓플레이스 입점…기업용 AI 번역 구매·운영 통합

- 딥엘 API 제공·AWS FTR 통과, 보안·확장성 기반 도입 간소화 글로벌 언어 AI 기업 딥엘은 자사 언어 AI 솔루션을 AWS 마켓플레이스에 제공한다고 19일 밝혔다. 기업 고객은 AWS 환경에서 딥엘 API를 직접 구매·도입해 기존 IT 인프라에 통합 운영하고, 조달 ...

Date2026.02.19 Bynewsit Views73

Read More
벡터, 영역형 ECU·HPC 아키텍처 대응 ‘CANape 24’ 출시

- ASAM CMP 지원·ADAS 실시간 검증·100GB 클라우드 로깅 강화 벡터코리아는 영역형 ECU(Zonal ECU)와 고성능 컴퓨터(HPC) 기반 차량 아키텍처 환경에서 고정밀 계측과 캘리브레이션, ADAS 실시간 검증을 지원하는 CANape 24를 출시했다고 19일 밝혔다. 중앙 집...

Date2026.02.19 Bynewsit Views53

Read More

태그 쓰기

클라우드플레어, 에이전트 클라우드 확장…다이내믹 워...	04-15
한국레노버, 미니멀 디자인 올인원 PC ‘AIO A105a’ 출...	04-15
ACM, 플래니터리 플랫폼 기반 반도체 공정 포트폴리오 ...	04-15
어플라이드, 옹스트롬 로직 공정용 GAA 증착 시스템 발...	04-14
윈드리버, BAE 시스템즈 ‘파트너-투-윈’ 골드 티어 수...	04-14
솔트웨어, K-ISMS 기준 AWS 보안 점검 서비스 ‘SCR’ 업...	04-14
ST, 모션 제어용 고속 GaN 게이트 드라이버 출시…전력 ...	04-14
카스퍼스키, AI 캐리커처 열풍 속 개인정보 노출 위험 ...	04-14
엔비디아, ‘네모트론 디벨로퍼 데이즈 서울 2026’ 첫 개최	04-13
로지텍, 앰배서더 프로그램 ‘로지텍 G 히어로즈’ 1기 모집	04-13

소프트웨어·컴퓨팅

소프트웨어·컴퓨팅

엔비디아, NVFP4로 저정밀 AI 훈련·추론 경쟁 본격화…MLPerf서 FP8 대비 1.9배

단축키

단축키

소프트웨어·컴퓨팅

다쏘시스템, AI ‘버추얼 동반자’ 공개…3D익스피리언스서 산업 공동 창작 체계 제시

윈드리버, MWC 바르셀로나서 AI-RAN 기반 엣지 AI 전략 공개…통신 인프라 운영 효율화 제시

엔비디아, NVFP4로 저정밀 AI 훈련·추론 경쟁 본격화…MLPerf서 FP8 대비 1.9배

엔비디아, 블랙웰 울트라로 에이전틱 AI 추론 경쟁 본격화…성능 50배↑·토큰 비용 35배↓

델 프라이빗 클라우드, 뉴타닉스 AHV 지원…멀티 하이퍼바이저 분리형 전략 확대

엔비디아, 블랙웰로 추론 토큰 비용 최대 10배 절감…토크노믹스 전환 가속

엔비디아, 메타와 차세대 AI 인프라 공동 구축…CPU·블랙웰·루빈 GPU 통합 설계

지멘스, HD현대 조선 플랫폼 디지털 백본 구축…2028년 운항 선박부터 적용

딥엘, AWS 마켓플레이스 입점…기업용 AI 번역 구매·운영 통합

벡터, 영역형 ECU·HPC 아키텍처 대응 ‘CANape 24’ 출시