소프트웨어·컴퓨팅

2026.02.23 16:07

엔비디아, NVFP4로 저정밀 AI 훈련·추론 경쟁 본격화…MLPerf서 FP8 대비 1.9배

newsit

https://hwlab.com/SW_Computing/19066 조회 수 133 추천 수 0 댓글 0

Extra Form
참조#1	https://developer.nvidia.com/blog/inside...rcomputer/
참조#2	https://developer.nvidia.com/blog/introd...inference/

단축키

Prev이전 문서

Next다음 문서

가 크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄 첨부

단축키

Prev이전 문서

Next다음 문서

가 크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄 첨부

- 블랙웰 울트라 512 GPU로 라마 3.1 405B 64.6분…정확도 유지하며 처리량·전력 효율 동시 개선

엔비디아, NVFP4로 AI 훈련·추론 성능과 효율성 동시 향상.jpg

엔비디아가 4비트 부동소수점 정밀도 ‘NVFP4’를 앞세워 저정밀 AI 훈련·추론 경쟁에 속도를 높였다. 최신 MLPerf 훈련 벤치마크에서 블랙웰 울트라 GPU 512개로 구성한 GB300 NVL72 시스템이 라마 3.1 405B 사전 훈련을 64.6분 만에 완료하며, FP8 기반 GB200 NVL72 대비 최대 1.9배 빠른 성능을 기록했다. 처리량과 전력 효율을 동시에 개선하면서도 정확도 요건을 충족해 저정밀 포맷의 상용 적용 범위를 넓혔다.

저정밀 연산 전략, 공동 설계로 성능 구조 전환

최신 AI 모델은 규모와 복잡도가 커지며 훈련과 추론에 필요한 연산 수요가 급증하고 있다. 엔비디아는 칩과 시스템 아키텍처, 소프트웨어를 통합 설계하는 공동 설계 전략으로 세대별 성능 향상 폭을 확대했다. NVFP4는 블랙웰 아키텍처부터 도입한 4비트 부동소수점 정밀도 포맷이다. 포맷 설계와 실리콘 구현, 라이브러리 지원, 훈련 레시피, 추론 최적화를 하나의 스택으로 통합해 저정밀 연산의 처리량 이점을 실제 워크로드에 적용했다는 설명이다.

블랙웰 울트라, NVFP4 기준 최대 15페타플롭스

블랙웰 울트라 GPU는 NVFP4 기준 최대 15페타플롭스의 처리량을 제공하며, 동일 GPU의 FP8 대비 최대 3배 높은 연산 밀도를 구현한다. 엔비디아는 FP8에서 NVFP4로 전환할 경우 6,710억 매개변수 규모의 MoE 모델 ‘딥시크-R1’ 추론에서 토큰 처리량이 향상된다고 설명했다. 훈련 영역에서도 성과를 제시했다. 512개의 블랙웰 울트라 GPU로 구성한 GB300 NVL72 시스템은 NVFP4를 적용해 라마 3.1 405B 사전 훈련을 64.6분 만에 완료했다. 이는 이전 라운드에서 FP8 정밀도로 동일 벤치마크를 수행한 512개 블랙웰 GPU 기반 GB200 NVL72 대비 최대 1.9배 빠른 결과다.

정확도 요건 충족…LLM 전반 적용 확대

MLPerf 훈련·추론 비공개 부문은 엄격한 정확도 기준을 충족해야 유효 제출로 인정된다. 엔비디아는 NVFP4를 적용해 여러 거대 언어 모델(LLM) 테스트 항목에서 정확도 요건을 충족했다고 밝혔다. 딥시크-R1, 라마 3.1 8B·405B, 라마 2 70B 등 다양한 모델에서 결과를 제출했다.

HGX B200에서 MTP 미적용 FP8, MTP 적용 FP8, MTP 적용 NVFP4의 처리량 대 상호작용 곡선.jpg

생태계 확장 가속…글로벌 기업 참여 확대

엔비디아 모델 옵티마이저, LLM 컴프레서, torch.ao 등을 통해 고정밀 모델을 NVFP4로 양자화할 수 있으며, 텐서RT-LLM, vLLM, SGLang 등 주요 추론 프레임워크도 NVFP4 포맷을 지원한다. 허깅 페이스에서는 라마 3.3 70B, FLUX.2, 딥시크-R1-0528, Qwen3-235B-A22B, Nemotron Nano 등 NVFP4 버전을 제공하고 있다.

라마(Llama) 3.1 405B 사전 훈련과 라마 2 70B LoRA 파인튜닝 성능을 각각 512-GPU와 8-GPU 규모에서 평가했다.jpg

Black Forest Labs, Radical Numerics, Red Hat 등도 NVFP4 기반 훈련·추론을 확대하고 있다. 블랙 포레스트 랩스 로빈 롬바흐 CEO는 CUDA Graphs, torch.compile, NVFP4, TeaCache를 결합해 단일 B200에서 최대 6.3배 속도 향상을 달성했다고 밝혔다.

루빈 플랫폼, NVFP4 성능 추가 도약 예고

엔비디아는 차세대 루빈(Rubin) 플랫폼에서 NVFP4 기준 훈련 연산 35페타플롭스, 추론 50페타플롭스를 목표로 한다고 밝혔다. 이는 블랙웰 대비 각각 3.5배, 5배 향상된 수치다. NVFP4를 훈련과 추론 전반에 확산해 처리량과 전력 효율을 동시에 개선하는 전략을 이어갈 계획이다.

딥시크-R1 모델 평가 점수에서 NVFP4가 FP8 기준선의 정확도와 매우 유사하게 일치함을 보여준다.jpg

#엔비디아 #NVFP4 #블랙웰울트라 #GB300NVL72 #MLPerf #AI훈련 #AI추론 #저정밀연산 #루빈

Facebook Twitter Google Pinterest KakaoStory Band

Atachment
첨부 '4'	엔비디아, NVFP4로 AI 훈련·추론 성능과 효율성 동시 향상.jpg, HGX B200에서 MTP 미적용 FP8, MTP 적용 FP8, MTP 적용 NVFP4의 처리량 대 상호작용 곡선.jpg, 라마(Llama) 3.1 405B 사전 훈련과 라마 2 70B LoRA 파인튜닝 성능을 각각 512-GPU와 8-GPU 규모에서 평가했다.jpg, 딥시크-R1 모델 평가 점수에서 NVFP4가 FP8 기준선의 정확도와 매우 유사하게 일치함을 보여준다.jpg,

위로 아래로 게시글 수정 내역 댓글로 가기 인쇄 첨부

✔댓글 쓰기

에디터 선택하기

✔ 텍스트 모드 ✔ 에디터 모드

댓글 쓰기

에디터 사용하기 닫기

소프트웨어·컴퓨팅

사이냅소프트, NIPA ‘2026 AX 원스톱 바우처’ 공급기업 선정…Document AI 기반 AX 구축 지원 확대

- 자체 데이터 학습·프롬프트 엔지니어링 기술 검증 통과 사이냅소프트가 정보통신산업진흥원(NIPA)이 주관하는 ‘2026년 AX 원스톱 바우처 지원사업’ 공급기업으로 선정되며 Document AI 기반 전사적 인공지능 전환(AX) 구축 지원 범위를 확대한다. Document A...

Date2026.04.09 Bynewsit Views44

Read More
뉴타닉스, 에이전틱 AI 멀티테넌트 기능 공개…네오클라우드 AI 서비스 운영 지원

- AI 관리 포털 기반 GPUaaS·KaaS 등 서비스형 AI 플랫폼 구축 뉴타닉스가 에이전틱 AI(Agentic AI) 솔루션에 멀티테넌트와 관리 포털 기능을 추가하고 네오클라우드 사업자가 AI 서비스를 운영할 수 있는 플랫폼 범위를 확대한다. GPU 자원 활용 수요가 증가...

Date2026.04.09 Bynewsit Views47

Read More
세일즈포스, 맞춤형 AI 에이전트 슬랙봇 공개… 에이전틱 엔터프라이즈 비전 제시

- 슬랙 중심 사람·에이전트·데이터 협업 구조 제시 세일즈포스가 맞춤형 AI 에이전트 슬랙봇(Slackbot)을 국내에 공개하고 슬랙을 중심으로 한 에이전틱 엔터프라이즈(Agentic Enterprise) 비전과 전략을 제시했다. 세일즈포스 코리아 박세진 대표는 슬랙을 사...

Date2026.04.08 Bynewsit Views31

Read More
인텔, 산토쉬 비스와나탄 APJ 총괄 선임…아시아태평양·일본 지역 리더십 확대

- 인도 총괄에서 APJ 지역 총괄로 역할 확대…고객·파트너 협력 강화 - 글로벌 영업 운영 경험 기반 지역 성장 전략 추진 인텔이 산토쉬 비스와나탄(Santhosh Viswanathan) 인도 총괄을 아시아 태평양 및 일본(APJ) 지역 총괄로 선임했다. 통합된 리더십 체계 ...

Date2026.04.08 Bynewsit Views32

Read More
윈드리버, AMD와 오픈랜·AI-RAN 통합 플랫폼 공개…단일 인프라로 RAN·AI 동시 운영

- AMD EPYC 기반 단일 하드웨어에서 가상화 RAN과 AI 추론 워크로드 통합 윈드리버가 AMD와 협력해 오픈랜(Open RAN)과 AI-RAN 워크로드를 단일 인프라에서 통합 운영할 수 있는 상용 플랫폼을 공개했다. RAN 기능과 AI 애플리케이션을 별도 시스템에서 운영하...

Date2026.04.07 Bynewsit Views36

Read More
오토폼, K-제조 위한 디지털 금형 전략 발표… 숙련 기술 AI 전환

오토폼이 AI 시뮬레이션과 디지털 트윈 기반 금형 로드맵을 공개하며 제조 현장의 숙련 기술을 데이터 자산으로 전환해 공정 예측 정확도와 품질 일관성을 높인다. AI 기반 금형 설계 판단 기준 데이터 축적 제조 산업은 숙련 인력 감소로 공정 판단 기준이 개...

Date2026.04.07 Bynewsit Views50

Read More
알리바바, Qwen3.6-Plus·Qwen3.5-Omni 공개…에이전틱 실행과 옴니모달 처리 동시 확장

- 에이전틱 코딩·멀티모달 추론·음성·영상 통합 처리 기반 AI 실행 범위 확대 알리바바(Alibaba)가 에이전틱 실행 기반 코딩 모델 Qwen3.6-Plus와 텍스트·음성·이미지·영상 데이터를 통합 처리하는 옴니모달 모델 Qwen3.5-Omni를 공개했다. 복합 작업을 단계적...

Date2026.04.06 Bynewsit Views50

Read More
한국레노버, 산업용 AI 엣지 컴퓨팅 ‘씽크엣지’ 2종 출시…온디바이스 처리로 지연 최소화

- 씽크엣지 SE30n·SE60n, 최대 97 TOPS 기반 실시간 산업 데이터 분석 지원 한국레노버가 산업 환경에 최적화된 AI 엣지 컴퓨팅 솔루션 씽크엣지(ThinkEdge) 2종을 출시했다. 온디바이스 AI 기반 데이터 처리를 통해 클라우드 의존도를 낮추고 데이터가 생성되...

Date2026.04.06 Bynewsit Views38

Read More
사이냅소프트, 문서 AI·RAG 기반 도서관 AX 전환 지원

- 문서 AI 4종으로 학술 데이터 지식화 및 검색 자동화 기능 공개 사이냅소프트가 제24차 한국학술정보협의회 콘퍼런스에서 문서 AI(Document AI) 기반 도서관 업무 자동화 솔루션을 공개했다. 학술 데이터를 지식 자산으로 변환하고 검색 증강 생성(RAG) 기반...

Date2026.04.03 Bynewsit Views37

Read More
EDB, 엔비디아 GPU 결합…Postgres 분석 최대 100배 가속

- Apache Spark용 NVIDIA cuDF 통합 확대, 3TB 이상 데이터 분석 50~100배 처리 향상 EDB가 엔비디아 GPU 가속 기술을 포스트그레스(Postgres) AI 플랫폼에 결합하며 에이전틱 AI 환경에서 요구되는 대규모 데이터 분석 처리 속도를 최대 100배 높였다. 아파치...

Date2026.04.03 Bynewsit Views39

Read More

태그 쓰기

어플라이드, 옹스트롬 로직 공정용 GAA 증착 시스템 발...	04-14
윈드리버, BAE 시스템즈 ‘파트너-투-윈’ 골드 티어 수...	04-14
솔트웨어, K-ISMS 기준 AWS 보안 점검 서비스 ‘SCR’ 업...	04-14
ST, 모션 제어용 고속 GaN 게이트 드라이버 출시…전력 ...	04-14
카스퍼스키, AI 캐리커처 열풍 속 개인정보 노출 위험 ...	04-14
엔비디아, ‘네모트론 디벨로퍼 데이즈 서울 2026’ 첫 개최	04-13
로지텍, 앰배서더 프로그램 ‘로지텍 G 히어로즈’ 1기 모집	04-13
마우저, 일상 속 AI 적용 사례 조명…EIT 기술 시리즈 공개	04-13
코어시스템즈, 태양광 E-Ink 버스정보안내기 광명시 설치	04-13
안랩, CPS 보안 플랫폼 ‘안랩 CPS 플러스’ 공개	04-13

소프트웨어·컴퓨팅

소프트웨어·컴퓨팅

엔비디아, NVFP4로 저정밀 AI 훈련·추론 경쟁 본격화…MLPerf서 FP8 대비 1.9배

단축키

단축키

소프트웨어·컴퓨팅

사이냅소프트, NIPA ‘2026 AX 원스톱 바우처’ 공급기업 선정…Document AI 기반 AX 구축 지원 확대

뉴타닉스, 에이전틱 AI 멀티테넌트 기능 공개…네오클라우드 AI 서비스 운영 지원

세일즈포스, 맞춤형 AI 에이전트 슬랙봇 공개… 에이전틱 엔터프라이즈 비전 제시

인텔, 산토쉬 비스와나탄 APJ 총괄 선임…아시아태평양·일본 지역 리더십 확대

윈드리버, AMD와 오픈랜·AI-RAN 통합 플랫폼 공개…단일 인프라로 RAN·AI 동시 운영

오토폼, K-제조 위한 디지털 금형 전략 발표… 숙련 기술 AI 전환

알리바바, Qwen3.6-Plus·Qwen3.5-Omni 공개…에이전틱 실행과 옴니모달 처리 동시 확장

한국레노버, 산업용 AI 엣지 컴퓨팅 ‘씽크엣지’ 2종 출시…온디바이스 처리로 지연 최소화

사이냅소프트, 문서 AI·RAG 기반 도서관 AX 전환 지원

EDB, 엔비디아 GPU 결합…Postgres 분석 최대 100배 가속