HOME
오늘의 뉴스

Home

2026.02.23 16:07

엔비디아, NVFP4로 저정밀 AI 훈련·추론 경쟁 본격화…MLPerf서 FP8 대비 1.9배

newsit

https://hwlab.com/SW_Computing/19066 조회 수 124 추천 수 0 댓글 0

Extra Form
참조#1	https://developer.nvidia.com/blog/inside...rcomputer/
참조#2	https://developer.nvidia.com/blog/introd...inference/

단축키

Prev이전 문서

Next다음 문서

가 크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄 첨부

단축키

Prev이전 문서

Next다음 문서

가 크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄 첨부

- 블랙웰 울트라 512 GPU로 라마 3.1 405B 64.6분…정확도 유지하며 처리량·전력 효율 동시 개선

엔비디아, NVFP4로 AI 훈련·추론 성능과 효율성 동시 향상.jpg

엔비디아가 4비트 부동소수점 정밀도 ‘NVFP4’를 앞세워 저정밀 AI 훈련·추론 경쟁에 속도를 높였다. 최신 MLPerf 훈련 벤치마크에서 블랙웰 울트라 GPU 512개로 구성한 GB300 NVL72 시스템이 라마 3.1 405B 사전 훈련을 64.6분 만에 완료하며, FP8 기반 GB200 NVL72 대비 최대 1.9배 빠른 성능을 기록했다. 처리량과 전력 효율을 동시에 개선하면서도 정확도 요건을 충족해 저정밀 포맷의 상용 적용 범위를 넓혔다.

저정밀 연산 전략, 공동 설계로 성능 구조 전환

최신 AI 모델은 규모와 복잡도가 커지며 훈련과 추론에 필요한 연산 수요가 급증하고 있다. 엔비디아는 칩과 시스템 아키텍처, 소프트웨어를 통합 설계하는 공동 설계 전략으로 세대별 성능 향상 폭을 확대했다. NVFP4는 블랙웰 아키텍처부터 도입한 4비트 부동소수점 정밀도 포맷이다. 포맷 설계와 실리콘 구현, 라이브러리 지원, 훈련 레시피, 추론 최적화를 하나의 스택으로 통합해 저정밀 연산의 처리량 이점을 실제 워크로드에 적용했다는 설명이다.

블랙웰 울트라, NVFP4 기준 최대 15페타플롭스

블랙웰 울트라 GPU는 NVFP4 기준 최대 15페타플롭스의 처리량을 제공하며, 동일 GPU의 FP8 대비 최대 3배 높은 연산 밀도를 구현한다. 엔비디아는 FP8에서 NVFP4로 전환할 경우 6,710억 매개변수 규모의 MoE 모델 ‘딥시크-R1’ 추론에서 토큰 처리량이 향상된다고 설명했다. 훈련 영역에서도 성과를 제시했다. 512개의 블랙웰 울트라 GPU로 구성한 GB300 NVL72 시스템은 NVFP4를 적용해 라마 3.1 405B 사전 훈련을 64.6분 만에 완료했다. 이는 이전 라운드에서 FP8 정밀도로 동일 벤치마크를 수행한 512개 블랙웰 GPU 기반 GB200 NVL72 대비 최대 1.9배 빠른 결과다.

정확도 요건 충족…LLM 전반 적용 확대

MLPerf 훈련·추론 비공개 부문은 엄격한 정확도 기준을 충족해야 유효 제출로 인정된다. 엔비디아는 NVFP4를 적용해 여러 거대 언어 모델(LLM) 테스트 항목에서 정확도 요건을 충족했다고 밝혔다. 딥시크-R1, 라마 3.1 8B·405B, 라마 2 70B 등 다양한 모델에서 결과를 제출했다.

HGX B200에서 MTP 미적용 FP8, MTP 적용 FP8, MTP 적용 NVFP4의 처리량 대 상호작용 곡선.jpg

생태계 확장 가속…글로벌 기업 참여 확대

엔비디아 모델 옵티마이저, LLM 컴프레서, torch.ao 등을 통해 고정밀 모델을 NVFP4로 양자화할 수 있으며, 텐서RT-LLM, vLLM, SGLang 등 주요 추론 프레임워크도 NVFP4 포맷을 지원한다. 허깅 페이스에서는 라마 3.3 70B, FLUX.2, 딥시크-R1-0528, Qwen3-235B-A22B, Nemotron Nano 등 NVFP4 버전을 제공하고 있다.

라마(Llama) 3.1 405B 사전 훈련과 라마 2 70B LoRA 파인튜닝 성능을 각각 512-GPU와 8-GPU 규모에서 평가했다.jpg

Black Forest Labs, Radical Numerics, Red Hat 등도 NVFP4 기반 훈련·추론을 확대하고 있다. 블랙 포레스트 랩스 로빈 롬바흐 CEO는 CUDA Graphs, torch.compile, NVFP4, TeaCache를 결합해 단일 B200에서 최대 6.3배 속도 향상을 달성했다고 밝혔다.

루빈 플랫폼, NVFP4 성능 추가 도약 예고

엔비디아는 차세대 루빈(Rubin) 플랫폼에서 NVFP4 기준 훈련 연산 35페타플롭스, 추론 50페타플롭스를 목표로 한다고 밝혔다. 이는 블랙웰 대비 각각 3.5배, 5배 향상된 수치다. NVFP4를 훈련과 추론 전반에 확산해 처리량과 전력 효율을 동시에 개선하는 전략을 이어갈 계획이다.

딥시크-R1 모델 평가 점수에서 NVFP4가 FP8 기준선의 정확도와 매우 유사하게 일치함을 보여준다.jpg

#엔비디아 #NVFP4 #블랙웰울트라 #GB300NVL72 #MLPerf #AI훈련 #AI추론 #저정밀연산 #루빈

Facebook Twitter Google Pinterest KakaoStory Band

Atachment
첨부 '4'	엔비디아, NVFP4로 AI 훈련·추론 성능과 효율성 동시 향상.jpg, HGX B200에서 MTP 미적용 FP8, MTP 적용 FP8, MTP 적용 NVFP4의 처리량 대 상호작용 곡선.jpg, 라마(Llama) 3.1 405B 사전 훈련과 라마 2 70B LoRA 파인튜닝 성능을 각각 512-GPU와 8-GPU 규모에서 평가했다.jpg, 딥시크-R1 모델 평가 점수에서 NVFP4가 FP8 기준선의 정확도와 매우 유사하게 일치함을 보여준다.jpg,

위로 아래로 게시글 수정 내역 댓글로 가기 인쇄 첨부

✔댓글 쓰기

에디터 선택하기

✔ 텍스트 모드 ✔ 에디터 모드

댓글 쓰기

에디터 사용하기 닫기

뉴스룸

25Mar
by newsit
2026/03/25 by newsit
Views 18

옥타브, IDC 마켓스케이프 EAM 리더 선정… AI 기반 자산 생애주기 관리 구조 평가
01Apr
by newsit
2026/04/01 by newsit
Views 20

데이터브릭스, 레이크하우스 기반 엔터프라이즈 AI 확산… 국내 비즈니스 100% 성장
02Apr
by newsit
2026/04/02 by newsit
Views 20

티머니, 기후동행카드 10% T마일리지 페이백 프로모션 운영
25Mar
by newsit
2026/03/25 by newsit
Views 21

한국퀀텀컴퓨팅, 에어큐브와 PQC 기반 패스워드리스 인증 PoC 추진
23Mar
by newsit
2026/03/23 by newsit
Views 23

EDB, EPAS 네이티브 TDE로 WAL·임시파일까지 암호화
23Mar
by newsit
2026/03/23 by newsit
Views 23

ams 오스람, 차량 조명 네트워크 OSP ISO 국제표준화 착수
26Mar
by newsit
2026/03/26 by newsit
Views 23

헥사곤, SIMTOS 2026 참가…정밀 측정·AI 기반 제조 솔루션 공개
31Mar
by newsit
2026/03/31 by newsit
Views 24

F5, ADSP에 통합 가시성·Agentic AI·양자내성암호 적용 확대
03Apr
by newsit
2026/04/03 by newsit
Views 24

사이냅소프트, 문서 AI·RAG 기반 도서관 AX 전환 지원
19Mar
by newsit
2026/03/19 by newsit
Views 26

[GTC 2026] 엔비디아, 한국 기업과 AI 협력 확대…메모리·자율주행 전방위 확장
31Mar
by newsit
2026/03/31 by newsit
Views 26

스틸시리즈, 붉은사막 스팀 코드 번들…아크티스·에이펙스 구매 프로모션
02Apr
by newsit
2026/04/02 by newsit
Views 26

MSI, RTX50 DLSS4 기반 ‘바이오하자드 레퀴엠’ 번들 프로모션 연장
02Apr
by newsit
2026/04/02 by newsit
Views 26

한국공작기계산업협회, 이탈리아 초감가상각제도 EU산 요건 폐지 환영
09Mar
by newsit
2026/03/09 by newsit
Views 27

마우저, 마이크로칩·삼텍과 PCIe 설계 전략 전자책 발간… 차세대 임베디드 시스템 설계 가이드 제시
02Apr
by newsit
2026/04/02 by newsit
Views 27

사이냅소프트, OCR IX CPU 출시… GPU 없이 AI OCR 실행 지원
03Apr
by newsit
2026/04/03 by newsit
Views 27

마우저, 디지 커넥트 센서 XRT-M 공급...원격 센서 모니터링 지원
16Mar
by newsit
2026/03/16 by newsit
Views 28

노르딕 세미컨덕터, 블루투스 LE SoC ‘nRF54LS05A·B’ 공개…저전력 IoT 기기 겨냥
26Mar
by newsit
2026/03/26 by newsit
Views 28

세일포인트, AWS 협력 에이전틱 AI 보안 확장…통합 아이덴티티 거버넌스 레이어 구축
31Mar
by newsit
2026/03/31 by newsit
Views 28

데이터이쿠, APJ 총괄에 앤드류 보이드 선임…기업 AI 성과 확산 전략 강화
01Apr
by newsit
2026/04/01 by newsit
Views 28

레노버, 데이비드 베컴과 글로벌 파트너십 체결… AI 스포츠 혁신 협력 확대

쓰기

마우저, 디지 커넥트 센서 XRT-M 공급...원격 센서 모...	04-03
사이냅소프트, 문서 AI·RAG 기반 도서관 AX 전환 지원	04-03
EDB, 엔비디아 GPU 결합…Postgres 분석 최대 100배 ...	04-03
유아이패스, 구매-지급(P2P) 에이전틱 AI 솔루션 공개…...	04-02
사이냅소프트, OCR IX CPU 출시… GPU 없이 AI OCR 실행...	04-02
마에스트로 포렌식, DFIR 대응 파이프라인 세미나 개최...	04-02
AIWORKX, 생성형 AI 기반 비대면 기업카드 심사 자동화...	04-02
한국공작기계산업협회, 이탈리아 초감가상각제도 EU산 ...	04-02
티머니, 기후동행카드 10% T마일리지 페이백 프로모션 ...	04-02
MSI, RTX50 DLSS4 기반 ‘바이오하자드 레퀴엠’ 번들 프...	04-02

오늘의 뉴스

엔비디아, NVFP4로 저정밀 AI 훈련·추론 경쟁 본격화…MLPerf서 FP8 대비 1.9배

단축키

단축키

뉴스룸