- 블랙웰 울트라 512 GPU로 라마 3.1 405B 64.6정확도 유지하며 처리량·전력 효율 동시 개선

 

엔비디아, NVFP4로 AI 훈련·추론 성능과 효율성 동시 향상.jpg

 

 

 

 

엔비디아가 4비트 부동소수점 정밀도 ‘NVFP4’를 앞세워 저정밀 AI 훈련·추론 경쟁에 속도를 높였다. 최신 MLPerf 훈련 벤치마크에서 블랙웰 울트라 GPU 512개로 구성한 GB300 NVL72 시스템이 라마 3.1 405B 사전 훈련을 64.6분 만에 완료하며, FP8 기반 GB200 NVL72 대비 최대 1.9배 빠른 성능을 기록했다. 처리량과 전력 효율을 동시에 개선하면서도 정확도 요건을 충족해 저정밀 포맷의 상용 적용 범위를 넓혔다.

 

저정밀 연산 전략, 공동 설계로 성능 구조 전환

최신 AI 모델은 규모와 복잡도가 커지며 훈련과 추론에 필요한 연산 수요가 급증하고 있다. 엔비디아는 칩과 시스템 아키텍처, 소프트웨어를 통합 설계하는 공동 설계 전략으로 세대별 성능 향상 폭을 확대했다NVFP4는 블랙웰 아키텍처부터 도입한 4비트 부동소수점 정밀도 포맷이다. 포맷 설계와 실리콘 구현, 라이브러리 지원, 훈련 레시피, 추론 최적화를 하나의 스택으로 통합해 저정밀 연산의 처리량 이점을 실제 워크로드에 적용했다는 설명이다.

 

블랙웰 울트라, NVFP4 기준 최대 15페타플롭스

블랙웰 울트라 GPUNVFP4 기준 최대 15페타플롭스의 처리량을 제공하며, 동일 GPUFP8 대비 최대 3배 높은 연산 밀도를 구현한다. 엔비디아는 FP8에서 NVFP4로 전환할 경우 6,710억 매개변수 규모의 MoE 모델 딥시크-R1’ 추론에서 토큰 처리량이 향상된다고 설명했다. 훈련 영역에서도 성과를 제시했다. 512개의 블랙웰 울트라 GPU로 구성한 GB300 NVL72 시스템은 NVFP4를 적용해 라마 3.1 405B 사전 훈련을 64.6분 만에 완료했다. 이는 이전 라운드에서 FP8 정밀도로 동일 벤치마크를 수행한 512개 블랙웰 GPU 기반 GB200 NVL72 대비 최대 1.9배 빠른 결과다.

 

정확도 요건 충족LLM 전반 적용 확대

MLPerf 훈련·추론 비공개 부문은 엄격한 정확도 기준을 충족해야 유효 제출로 인정된다. 엔비디아는 NVFP4를 적용해 여러 거대 언어 모델(LLM) 테스트 항목에서 정확도 요건을 충족했다고 밝혔다. 딥시크-R1, 라마 3.1 8B·405B, 라마 2 70B 등 다양한 모델에서 결과를 제출했다.

 HGX B200에서 MTP 미적용 FP8, MTP 적용 FP8, MTP 적용 NVFP4의 처리량 대 상호작용 곡선.jpg

생태계 확장 가속글로벌 기업 참여 확대

엔비디아 모델 옵티마이저, LLM 컴프레서, torch.ao 등을 통해 고정밀 모델을 NVFP4로 양자화할 수 있으며, 텐서RT-LLM, vLLM, SGLang 등 주요 추론 프레임워크도 NVFP4 포맷을 지원한다. 허깅 페이스에서는 라마 3.3 70B, FLUX.2, 딥시크-R1-0528, Qwen3-235B-A22B, Nemotron Nano NVFP4 버전을 제공하고 있다.

 라마(Llama) 3.1 405B 사전 훈련과 라마 2 70B LoRA 파인튜닝 성능을 각각 512-GPU와 8-GPU 규모에서 평가했다.jpg

Black Forest Labs, Radical Numerics, Red Hat 등도 NVFP4 기반 훈련·추론을 확대하고 있다. 블랙 포레스트 랩스 로빈 롬바흐 CEOCUDA Graphs, torch.compile, NVFP4, TeaCache를 결합해 단일 B200에서 최대 6.3배 속도 향상을 달성했다고 밝혔다.

 

루빈 플랫폼, NVFP4 성능 추가 도약 예고

엔비디아는 차세대 루빈(Rubin) 플랫폼에서 NVFP4 기준 훈련 연산 35페타플롭스, 추론 50페타플롭스를 목표로 한다고 밝혔다. 이는 블랙웰 대비 각각 3.5, 5배 향상된 수치다. NVFP4를 훈련과 추론 전반에 확산해 처리량과 전력 효율을 동시에 개선하는 전략을 이어갈 계획이다.

 딥시크-R1 모델 평가 점수에서 NVFP4가 FP8 기준선의 정확도와 매우 유사하게 일치함을 보여준다.jpg

#엔비디아 #NVFP4 #블랙웰울트라 #GB300NVL72 #MLPerf #AI훈련 #AI추론 #저정밀연산 #루빈

 

 
?

  1. 플로우, 프로젝트 설계 ‘AI 에이전트’ 출시…기업용 협업을 실행 구조 중심으로 전환

    - 초기 기획 시간 80% 단축, 생산성·비용·보안 3대 과제 동시 대응 마드라스체크가 협업툴 ‘플로우’에 프로젝트 구조를 자동 설계하는 AI 에이전트를 출시하며, 기획 단계부터 개입하는 기업용 AI 협업 플랫폼 전략을 본격화했다. 기존 협업툴 AI는 회의록 요...
    Date2026.02.24 Bynewsit Views33
    Read More
  2. 스노우플레이크 코리아, ‘데이터 포 브렉퍼스트’ 개최…엔터프라이즈 AI 플랫폼 전략 공개

    - 3월 19일 앰배서더 서울 풀만서 열려, 글로벌 제품 총괄 방한 기조연설 스노우플레이크 코리아가 3월 19일 앰배서더 서울 풀만 호텔 그랜드볼룸에서 연례 컨퍼런스 ‘데이터 포 브렉퍼스트’를 개최하며, 기업의 AI 내재화를 지원하는 엔터프라이즈 데이터 플...
    Date2026.02.24 Bynewsit Views28
    Read More
  3. 다쏘시스템, AI ‘버추얼 동반자’ 공개…3D익스피리언스서 산업 공동 창작 체계 제시

    - 아우라·레오·마리 통해 설계·엔지니어링·과학 전반 에이전틱 협업 구현 다쏘시스템이 3D익스피리언스 플랫폼에서 산업 전반의 설계·엔지니어링·과학 업무를 지원하는 AI 기반 ‘버추얼 동반자’를 공개하며, 인간과 AI가 실시간으로 공동 창작하는 에이전틱 협...
    Date2026.02.24 Bynewsit Views26
    Read More
  4. 마에스트로 포렌식, ‘마에스트로 위즈덤 리눅스’ 공개…리눅스 서버 EXT·XFS 정밀 분석 확대

    - Red Hat·Ubuntu 등 주요 배포판 지원 강화, 250종 이상 디지털 아티팩트 통합 분석 마에스트로 포렌식이 레드햇과 우분투 등 주요 리눅스 배포판의 파일시스템 분석을 강화한 디지털 포렌식 솔루션 ‘마에스트로 위즈덤 리눅스’를 공개하며, 서버·클라우드 환...
    Date2026.02.24 Bynewsit Views34
    Read More
  5. 카스퍼스키, 알파 세대 AI 사용 확산 대응 가이드 공개…개인정보 보호·앱 권한 관리 강조

    - 개인정보 공유 차단·교차 검증 교육·자녀 보호 도구 활성화 권고 카스퍼스키가 ‘안전한 인터넷의 날(Safer Internet Day)’을 맞아 어린이와 청소년의 AI 활용 안전 수칙을 공개하며, 알파 세대의 디지털 보호 인식 강화를 위한 실천 방안을 제시했다. 카스퍼...
    Date2026.02.24 Bynewsit Views37
    Read More
  6. 스틸시리즈, T1과 신학기 프로모션 진행…최대 50% 할인·굿즈 증정으로 시즌 수요 공략

    - 네이버 공식스토어에서 2월 19일부터 28일까지, 5만원 이상 구매 고객 대상 추첨 이벤트 스틸시리즈가 T1과 함께하는 신학기 프로모션을 진행하며, 할인 혜택과 팀 굿즈 증정을 결합한 팬 참여형 이벤트를 공개했다. 이번 프로모션은 2월 19일부터 2월 28일...
    Date2026.02.24 Bynewsit Views27
    Read More
  7. 윈드리버, MWC 바르셀로나서 AI-RAN 기반 엣지 AI 전략 공개…통신 인프라 운영 효율화 제시

    - RAN·코어·IT 통합 오케스트레이션 구조로 5G 네트워크 현대화 가속 윈드리버가 스페인 바르셀로나에서 열리는 MWC Barcelona에서 AI-RAN 기반 엣지 AI 전략을 공개하며, RAN과 코어, IT 인프라 전반을 통합하는 자율 운영 네트워크 모델을 제시했다. 전 세계...
    Date2026.02.24 Bynewsit Views18
    Read More
  8. 엔비디아, NVFP4로 저정밀 AI 훈련·추론 경쟁 본격화…MLPerf서 FP8 대비 1.9배

    - 블랙웰 울트라 512 GPU로 라마 3.1 405B 64.6분…정확도 유지하며 처리량·전력 효율 동시 개선 엔비디아가 4비트 부동소수점 정밀도 ‘NVFP4’를 앞세워 저정밀 AI 훈련·추론 경쟁에 속도를 높였다. 최신 MLPerf 훈련 벤치마크에서 블랙웰 울트라 GPU 512개로 ...
    Date2026.02.23 Bynewsit Views27
    Read More
  9. 엔비디아, 블랙웰 울트라로 에이전틱 AI 추론 경쟁 본격화…성능 50배↑·토큰 비용 35배↓  

    - GB300 NVL72, 호퍼 대비 메가와트당 처리량 최대 50배 향상…저지연 환경 100만 토큰당 비용 35배 절감 엔비디아가 차세대 블랙웰 울트라 플랫폼을 공개하고 에이전틱 AI 추론 인프라 경쟁을 본격화했다. GB300 NVL72 시스템은 기존 호퍼 플랫폼 대비 메가와...
    Date2026.02.23 Bynewsit Views46
    Read More
  10. 델 프라이빗 클라우드, 뉴타닉스 AHV 지원…멀티 하이퍼바이저 분리형 전략 확대

    - 서버·스토리지 독립 확장 구조에 자동화 전 주기 적용, 투자 보호와 유연성 동시 강화 델이 ‘델 프라이빗 클라우드’에서 뉴타닉스 AHV를 공식 지원하며 멀티 하이퍼바이저 전략을 강화했다. 서버와 스토리지를 분리한 확장형 인프라 구조에 자동화 기반 운영...
    Date2026.02.23 Bynewsit Views31
    Read More
  11. 삼성SDS, 2026년 5대 사이버 보안 위협 제시…AI 확산에 보안 대응 방식 전환 강조

    - IT·보안 관계자 667명 의견 반영, AI 기반 자동화 중심 보안 전략 강조 삼성SDS가 지난해 국내외 사이버 보안 이슈를 분석하고 국내 IT·보안 관계자 667명의 의견을 반영해 ‘2026년 5대 사이버 보안 위협’을 제시했다. AI 확산과 클라우드 전환이 빨라지면서...
    Date2026.02.23 Bynewsit Views44
    Read More
  12. 엔비디아, 최신 게임 3종에 DLSS 4 적용…4K서 최대 3.8배 프레임 향상

    - ‘스틱스: 블레이드 오브 그리드’·‘스타 트렉: 보이저’·‘노르스’ 지원…‘배틀필드 6: 시즌 2’도 멀티 프레임 생성 탑재 엔비디아가 최신 게임 3종에 DLSS 4를 적용하며 지포스 RTX 게이머를 위한 성능 최적화를 확대했다. DLSS 4 멀티 프레임 생성과 DLSS 슈퍼...
    Date2026.02.20 Bynewsit Views41
    Read More
  13. 엔비디아, 블랙웰로 추론 토큰 비용 최대 10배 절감…토크노믹스 전환 가속

    - 베이스텐·딥인프라·파이어웍스 AI·투게더 AI, 블랙웰 최적화 스택으로 효율 극대화 엔비디아가 블랙웰 플랫폼을 통해 주요 추론 서비스 제공업체들이 토큰당 비용을 최대 10배까지 낮추고 있다고 밝혔다. 오픈소스 모델과 블랙웰 기반 최적화 추론 스택을 결...
    Date2026.02.20 Bynewsit Views37
    Read More
  14. 엔비디아, 메타와 차세대 AI 인프라 공동 구축…CPU·블랙웰·루빈 GPU 통합 설계

    - 스펙트럼-X 네트워킹·컨피덴셜 컴퓨팅 결합…전력 대비 성능·프라이버시 강화 엔비디아가 메타와 온프레미스와 클라우드를 아우르는 차세대 AI 인프라 구축을 위한 장기 전략적 파트너십을 체결했다고 밝혔다. CPU, 블랙웰·루빈 GPU, 스펙트럼-X 이더넷을 통...
    Date2026.02.20 Bynewsit Views30
    Read More
  15. 카스퍼스키, 2026 동계 올림픽 겨냥 사이버 사기 경고…공식 채널 이용 강조

    - 가짜 티켓·위조 상품·불법 스트리밍 확산…개인정보 유출 주의 카스퍼스키가 2026 동계 올림픽 기간 발생할 수 있는 주요 사이버 사기 유형과 식별법을 소개했다고 밝혔다. 가짜 티켓 판매, 위조 상품 쇼핑몰, 불법 스트리밍 사이트가 확산되며 스포츠 팬을 ...
    Date2026.02.20 Bynewsit Views31
    Read More
  16. 가민, 아시아 연구자에 웨어러블 로우 데이터 개방…디지털 헬스 연구 생태계 확대

    - 핏로커와 ‘아시아 지역 연구사업’ 착수…11개국 연구자 3월 31일까지 모집 가민이 글로벌 헬스 데이터 플랫폼 핏로커와 협력해 ‘아시아 지역 연구사업’을 시작했다고 밝혔다. 웨어러블 기반 고해상도 생체 데이터를 연구 현장에 제공해 임상·스포츠과학 분야 ...
    Date2026.02.20 Bynewsit Views50
    Read More
  17. 마우저, 마이크로칩 PIC32WM-BZ6 멀티프로토콜 모듈 공급…IoT 통합 설계 지원

    - 128MHz Cortex-M4F 기반 통합 무선 모듈…RoT 보안·AEC-Q100 등급 1 인증 지원 마우저 일렉트로닉스가 마이크로칩 PIC32WM-BZ6 멀티프로토콜 모듈을 공급한다고 밝혔다. 블루투스 LE, 스레드, 매터를 단일 모듈에 통합하고 RF 프런트 엔드와 안테나까지 포함...
    Date2026.02.20 Bynewsit Views46
    Read More
  18. 노조미 네트웍스, 랜섬웨어 70% 영어권 집중…OT·IoT 보안 리스크 확대

    - 랜섬웨어 70% 영어권 집중…교통·공공 부문 공격 급증 노조미 네트웍스가 2025년 하반기 OT·IoT 사이버보안 동향 보고서를 발표하며, 전 세계 랜섬웨어 공격의 70%가 영어권 국가를 겨냥했다고 밝혔다. 미국·캐나다·영국을 중심으로 공격이 집중됐으며, 생성...
    Date2026.02.20 Bynewsit Views29
    Read More
  19. 마우저, 인피니언 AURIX TC4x MCU 공급…6코어 500MHz·5Gb 이더넷 지원

    - ADAS·전기 모빌리티·AI 대응, PCIe·CAN-XL·24MB 온칩 NVM 탑재 마우저 일렉트로닉스는 인피니언의 AURIX TC4x 32비트 트라이코어(TriCore) 마이크로컨트롤러(MCU)를 공급한다고 19일 밝혔다. 최대 6개의 500MHz 코어와 5기가비트 이더넷, PCIe 인터페이스를 ...
    Date2026.02.19 Bynewsit Views43
    Read More
  20. 머큐시스, 10Gbps 유선 환경 대응 ‘MA510E’ 출시

    - 기가비트 대비 10배 속도·Flow Control·WoL·EEE 지원, NAS·서버·크리에이터 환경 확장 머큐시스는 10기가비트 PCIe 네트워크 랜카드 ‘MA510E’를 출시했다고 19일 밝혔다. 최대 10Gbps 속도를 지원해 1Gbps 기가비트 환경에서 발생하는 대역폭 한계를 해소하...
    Date2026.02.19 Bynewsit Views34
    Read More
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 277 Next
/ 277
CLOSE