- FP8 양자화, 텐서RT 최적화로 VRAM 사용 40% 줄이고, 처리 속도 2배 향상

- 개발자용 RTX 전용 텐서RT SDK 출시경량화, JIT 컴파일 지원

 

엔비디아, 모델 양자화로 ‘스테이블 디퓨전 3.5’ 성능 대폭 향상.jpg

 

 

 

 

엔비디아가 양자화를 통해 스테이블 디퓨전 3.5(Stable Diffusion 3.5) 모델의 성능을 대폭 향상시켰다고 발표했다. 생성형 AI는 사람들이 디지털 콘텐츠를 만들고, 상상하며, 상호작용하는 방식을 혁신적으로 바꾸고 있다. 그러나 지속적으로 AI 모델의 기능이 향상되고 복잡성이 증가면서 더 많은 VRAM이 요구되고 있다. 예를 들어 기본 스테이블 디퓨전 3.5 라지(Large) 모델은 18GB 이상의 VRAM을 사용하므로 고성능 시스템이 아니면 실행이 어렵다.

 

하지만 이 모델에 양자화를 적용하면 중요하지 않은 레이어를 제거하거나 더 낮은 정밀도로도 실행할 수 있다. 엔비디아 지포스(GeForce) RTX 40 시리즈와 에이다 러브레이스(Ada Lovelace) 세대 엔비디아 RTX PRO GPU는 FP8 양자화를 지원해 이러한 경량화된 모델을 실행할 수 있다. 또한 최신 엔비디아 블랙웰(Blackwell) GPU는 FP4도 지원한다.

 

엔비디아는 스태빌리티 AI(Stability AI)와 협력해 최신 모델인 스테이블 디퓨전 3.5 라지를 FP8로 양자화해 VRAM 사용량을 40%까지 줄였다. 여기에 엔비디아 텐서RT(TensorRT) 소프트웨어 개발 키트(SDK)를 통한 최적화로 스테이블 디퓨전 3.5 라지와 미디엄 모델의 성능을 2배로 끌어올렸다.

 

또한, 텐서RT가 RTX AI PC 환경을 위해 새롭게 설계됐다. 업계 최고 수준의 성능과 JIT(Just-In-Time), 온디바이스 엔진 구축 기능을 더하고 패키지 크기를 8배 줄여 1억 대 이상의 RTX AI PC에 AI를 원활하게 배포할 수 있게 됐다. RTX용 텐서RT는 이제 개발자를 위한 독립형 SDK로 제공된다.

 

RTX 기반 AI 가속

엔비디아와 스태빌리티 AI는 세계에서 가장 인기 있는 AI 이미지 생성 모델 중 하나인 스테이블 디퓨전 3.5의 성능을 높이고 VRAM 요구 사항을 낮췄다. 엔비디아 텐서RT 가속과 양자화 기술을 통해, 사용자는 엔비디아 RTX GPU에서 이미지를 더 빠르고 효율적으로 생성하고 편집할 수 있다.

스테이블 디퓨전 3.5 FP8 양자화 모델(오)은 FP16 모델(왼)과 유사한 품질을 유지하면서 이미지 생성 시간을 절반으로 단축시킨다.jpg

스테이블 디퓨전 3.5 FP8 양자화 모델(오)은 FP16 모델(왼)과 유사한 품질을 유지하면서 이미지 생성 시간을 절반으로 단축시킨다.

프롬프트: 해 뜨는 고요한 산속 호수, 눈 덮인 봉우리를 반사하는 맑은 물, 호수를 따라 펼쳐진 울창한 소나무 숲, 부드러운 아침 안개, 사진처럼 사실적인 고화질의 생생한 색감

 

스테이블 디퓨전 3.5 라지의 VRAM 한계를 해결하기 위해 이 모델은 텐서RT를 활용해 FP8로 양자화됐다. 그 결과, VRAM 요구량이 40% 줄어 11GB면 충분해졌다. 즉, 단 한 대의 GPU가 아닌 다섯 대의 지포스 RTX 50 시리즈 GPU가 메모리에서 모델을 동시에 실행할 수 있게 됐다.

 

또한 스테이블 디퓨전 3.5 라지와 미디엄 모델은 텐서RT를 통해 최적화됐다. 텐서RT는 텐서 코어를 최대한 활용할 수 있도록 설계된 AI 백엔드로, 모델의 가중치와 모델 실행을 위한 명령 체계인 그래프를 RTX GPU에 맞게 최적화한다.

 

FP8 텐서RT는 스테이블 디퓨전 3.5 라지의 성능을 BF16 파이토치 대비 2.3배 향상시키면서 메모리 사용량은 40_ 줄여준다. 스테이블 디퓨전 3.5 미디엄의 경우, BF16 텐서RT는 BF16 파이토치 대비 1..jpg

FP8 텐서RT는 스테이블 디퓨전 3.5 라지의 성능을 BF16 파이토치 대비 2.3배 향상시키면서 메모리 사용량은 40% 줄여준다. 스테이블 디퓨전 3.5 미디엄의 경우, BF16 텐서RT는 BF16 파이토치 대비 1.7배 더 빠르다.

 

FP8 텐서RT를 적용한 결과, 스테이블 디퓨전 3.5 라지 모델은 BF16 파이토치(PyTorch)에서 실행했을 때보다 성능이 2.3배 향상됐고, 메모리 사용량은 40% 감소했다. 스테이블 디퓨전 3.5 미디엄 모델도 BF16 텐서RT를 통해 BF16 파이토치 대비 1.7배 더 높은 성능을 발휘했다.

 

이처럼 최적화된 모델은 현재 스태빌리티 AI의 허깅페이스(Hugging Face) 페이지에서 이용할 수 있다.

 

또한 엔비디아와 스태빌리티 AI는 스테이블 디퓨전 3.5 모델을 엔비디아 NIM 마이크로서비스 형태로도 출시할 계획이다. 이를 통해 크리에이터와 개발자는 다양한 애플리케이션에서 보다 쉽게 모델을 접근하고 배포할 수 있게 된다. 해당 NIM 마이크로서비스는 오는 7월 출시될 예정이다.

 

RTX용 텐서RT SDK 출시

엔비디아 RTX용 텐서RT가 독립형 SDK로 새롭게 제공된다. RTX용 텐서RT는 지난 마이크로소프트 빌드(Microsoft Build)에서 발표됐으며, 이미 새로운 윈도우 ML(Windows ML) 프레임워크의 일부로 프리뷰 버전으로 제공되고 있다.

 

기존에는 개발자가 각 GPU 클래스에 맞는 텐서RT 엔진을 미리 생성하고 패키징해야 했다. 이 과정은 GPU별 최적화가 가능하지만, 시간이 많이 소요되는 단점이 있었다. 그러나 새로운 버전의 텐서RT를 사용하면 개발자는 단 몇 초 만에 디바이스에 최적화되는 범용 텐서RT 엔진을 생성할 수 있다. 이 JIT 컴파일 방식은 소프트웨어 설치 시 또는 기능을 처음 사용할 때 백그라운드에서 실행된다.

 

새로운 SDK는 통합이 간편해지고, 이전 대비 8배 더 작아졌다. 이는 마이크로소프트의 새로운 AI 추론 백엔드인 윈도우 ML을 통해 쉽게 호출할 수 있다. 새로운 독립형 SDK는 엔비디아 개발자(NVIDIA Developer) 페이지에서 다운로드하거나, 윈도우 ML 프리뷰를 통해 테스트해볼 수 있다.

 

#엔비디아#RTX#FP8#스테이블디퓨전#

?

  1. 슈나이더 일렉트릭, 두바이에 첫 ‘임팩트 빌딩’ 공개…“글로벌 친환경 사옥 전환 본격화”

    - 지속 가능하고 스마트한 업무 공간 조성 위한 ‘임팩트 빌딩 프로그램’ 출범 - 기업의 탄소중립 목표를 직접 실천하는 동시에, 실질적인 스마트 빌딩 구현 사례 제공 슈나이더 일렉트릭이 ‘임팩트 빌딩 프로그램(Impact Buildings Program)’의 첫 번째 거점으...
    Date2025.06.17 Bynewsit Views478
    Read More
  2. EDB, 소버린 AI 및 데이터 플랫폼 ‘EDB Postgres AI’ 발표

    - AI 중심 데이터 운영을 위한 근본적인 혁신을 목표로 설계된 통합 플랫폼 - 트랜잭션 처리, 분석, 그리고 생성형 AI까지 하나의 환경 안에서 모두 처리할 수 있도록 통합 지원 EDB는 오늘 차세대 소버린 AI 및 데이터 플랫폼 ‘EDB 포스트그레스 AI(Postgres ...
    Date2025.06.18 Bynewsit Views461
    Read More
  3. 세일즈포스, '에이전트포스 월드투어 코리아 2025' 개최…“인간과 에이전트 협업으로 고객 성공 지원”

    - AI 에이전트 기업으로의 도약을 위한 차세대 디지털 워크포스 플랫폼 활용 전략 방향성 제시 - 슬랙, 태블로 세션 통해 협업 및 데이터 분석 환경 고도화 사례 발표… 세일즈포스 생태계 강화 - 에이전트포스 해커톤 우수작 발표부터 자격증 프로그램까지…40...
    Date2025.06.18 Bynewsit Views437
    Read More
  4. Avio, 다쏘 ‘3D익스피리언스 플랫폼’ 도입…“우주 기술 개발 혁신”

    - 이탈리아에 본사를 둔 우주 발사체 및 추진 시스템 분야 선도 기업, 지속 가능한 엔지니어링 및 제조 프로세스 비전 강화 - 3D익스피리언스 플랫폼, 주요 유럽 우주 프로그램을 위한 제품 개발 과정에서 효율성, 표준화, 품질, 규정 준수 수준 향상 - 다쏘시...
    Date2025.06.18 Bynewsit Views318
    Read More
  5. 데이터브릭스, 구글 클라우드와 전략적 AI 파트너십 체결…“구글 제미나이 데이터 인텔리전스 플랫폼에 통합”

    데이터브릭스(Databricks)는 오늘 구글 클라우드(Google Cloud)와 새로운 전략적 제품 파트너십을 발표하고, 최신 제미나이(Gemini) 모델이 데이터브릭스의 데이터 인텔리전스 플랫폼 내에서 네이티브 제품으로 제공된다고 밝혔다. 해당 파트너십을 통해 기업...
    Date2025.06.18 Bynewsit Views301
    Read More
  6. MSI, ‘더현대 X 세모키’ 팝업스토어 참여

    - 더현대 서울서 키보드, 마우스 체험존 운영 - 다양한 게이밍 기어 전시 및 저렴하게 구매할 수 있는 기회 엠에스아이코리아는 전자랜드가 주최하는 키보드 타건 팝업스토어 ‘세모키’에 참가해 MSI의 다양한 게이밍 기어를 전시한다. 이번 팝업스토어는 6월 1...
    Date2025.06.18 Bynewsit Views83
    Read More
  7. 노르딕, ‘뉴튼.AI’ 인수…“엣지 AI 리더십 강화”  

    - 노르딕의 획기적인 nRF54L 시리즈와 뉴튼.AI의 자동화된 TinyML 플랫폼을 통해 - 사용이 편리하고, 매우 효율적인 엣지용 머신러닝 구현 가속 노르딕 세미컨덕터는 TinyML 솔루션 분야의 선도 기업인 뉴튼.AI(Neuton.AI)의 핵심 기술 자산 및 IP를 인수한다...
    Date2025.06.18 Bynewsit Views238
    Read More
  8. 자브라, 소형 회의실 전용 비디오바 ‘파나캐스트 40 VBS’ 출시

    - 파나캐스트 40 VBS, 자브라의 프리미엄 협업 솔루션 포트폴리오 확장 - 독보적인 180도 화각과 선명한 음성을 위한 고급 오디오 기술을 탑재해 소형 회의실에 최적화된 협업 경험 전달 - 간편하고 신속한 설치로 회의 준비 시간을 단축, 유연한 배포 옵션 제...
    Date2025.06.18 Bynewsit Views88
    Read More
  9. 엠클라우드브리지, 2025 HRD에서 ‘AI 에이전트 활용 교육 과정’ 발표

    - 기업 임직원 AI 활용 능력 강화를 위한 맞춤 AI Agent 교육 과정 제공 - 교육 완료 후 만족도에 따라 추가 보강 교육을 지원하는 품질 관리 제공 엠클라우드브리지가 제32회 대한민국 인적자원개발 종합대회 ‘HRD KOREA 2025’에 참가해 기업 임직원 AI 활용 ...
    Date2025.06.19 Bynewsit Views315
    Read More
  10. 사이냅소프트, 참좋은여행에 ‘사이냅 OCR Pro’ 공급…여권 인식 저하 해결

    - 참좋은여행, 여권 자동등록 시스템 업그레이드 - 신여권 인식률 문제 해결… 사이냅소프트 OCR 도입 여행사 참좋은여행이 여권 인식 문제 해결을 위해 도큐먼트 AI 전문기업 사이냅소프트의 인공지능 기반 OCR 솔루션을 도입했다. 사이냅소프트는 자사의 ‘사...
    Date2025.06.19 Bynewsit Views453
    Read More
  11. 티맥스소프트-티맥스티베로, “오픈소스 미들웨어·DB 운영관리 전략” 웨비나 개최

    - 오픈소스 솔루션 ‘하이퍼프레임’과 ‘오픈SQL 3’를 활용한 유연한 IT 인프라 전략 제시 - 상용 SW 수준의 오픈소스 미들웨어·DBMS 플랫폼으로 고객의 오픈소스 도입 페인포인트 해결 티맥스소프트와 티맥스티베로가 오는 6월 25일 오후 2시 “미들웨어(Middlew...
    Date2025.06.19 Bynewsit Views507
    Read More
  12. 엔비디아, 모델 양자화로 ‘스테이블 디퓨전 3.5’ 성능 대폭 향상

    - FP8 양자화, 텐서RT 최적화로 VRAM 사용 40% 줄이고, 처리 속도 2배 향상 - 개발자용 RTX 전용 텐서RT SDK 출시…경량화, JIT 컴파일 지원 엔비디아가 양자화를 통해 스테이블 디퓨전 3.5(Stable Diffusion 3.5) 모델의 성능을 대폭 향상시켰다고 발표했다. ...
    Date2025.06.19 Bynewsit Views365
    Read More
  13. 사이냅소프트, AI 어시스턴트 기술 세미나 개최…“회사 문서 기반 맞춤형 AI 솔루션 공개”

    - 보안 걱정 없는 온프레미스 환경서 구동 - 토스랩 '잔디'와 연계한 실제 활용 사례 소개 사이냅소프트가 고객사 내부 문서를 활용한 전용 AI 어시스턴트 기술을 선보이는 세미나를 개최한다. 사이냅소프트는 6월 20일 본사에서 '같은 LLM, 다른 결과: 데이터...
    Date2025.06.19 Bynewsit Views324
    Read More
  14. 슈퍼마이크로, AMD 인스팅트 MI350 탑재 AI 솔루션 출시…“수냉·공냉식 옵션 모두 지원 및 성능·효율성 극대화”

    - 4세대 AMD CDNA 아키텍처 기반으로 대규모 AI 학습 및 추론 워크로드에 최적화 - 서버당 2.3TB HBM3e 메모리 탑재해 빠른 연산 처리와 유연한 AI 확장 지원 슈퍼마이크로컴퓨터가 최신 AMD 인스팅트(Instinct) MI350 시리즈 GPU를 기반 AI 솔루션을 공개했다...
    Date2025.06.19 Bynewsit Views68
    Read More
  15. 타포, ‘Tapo H110’ 스마트 IR 리모컨 출시…“스마트폰으로 가전 제어”

    티피링크의 스마트홈 브랜드 타포(Tapo)는 다양한 가전제품을 스마트폰으로 제어할 수 있는 스마트 적외선(IR) IoT 허브 ‘Tapo H110’을 새롭게 출시했다고 밝혔다. 이번에 선보인 Tapo H110은 기존 적외선 리모컨을 사용하는 TV, 에어컨, 선풍기 등 구형 가전...
    Date2025.06.19 Bynewsit Views121
    Read More
  16. 알리바바 클라우드, 국내 제2 데이터센터 공식 출범…“검증된 대규모 모델로 한국 내 고객 지원 강화”

    알리바바 클라우드가 국내 기업의 클라우드 컴퓨팅 및 AI 서비스 수요 증가에 선제적으로 대응하기 위해 오는 6월 말까지 한국에 제2 데이터센터를 공식 가동한다고 발표했다. 2022년 국내 첫 데이터센터 설립 이후 3년 만에 이루어진 이번 투자는 한국 시장에...
    Date2025.06.19 Bynewsit Views522
    Read More
  17. 헥사곤, ‘항공산업을 위한 혁신 제조 기술 컨퍼런스 2025’ 개최…“항공산업 디지털 전환 및 지속 가능성 전략 제시”

    - 홍석관 헥사곤 매뉴팩처링 인텔리전스의 메트롤로지 사업부 사장, ‘헥사곤 기술을 활용한 항공산업의 디지털 전환과 지속 가능성’ 발표 헥사곤은 오늘 한국생산기술연구원에서 ‘항공산업을 위한 혁신 제조 기술 컨퍼런스 2025’를 성황리에 개최했다고 밝혔다...
    Date2025.06.19 Bynewsit Views526
    Read More
  18. 레노버-모레-AMD, AI 추론 성능 최적화 공동 솔루션 발표

    - 모레 · AMD와 함께 AI 인프라 혁신 세미나 개최 - 레노버 · AMD의 고성능 인프라와 모레의 AI 최적화 소프트웨어 기술 결합한 솔루션 론칭 계획 공개 - 특정 플랫폼 종속성 벗어난 인프라 환경 구현해 AI 추론 성능 최대 2배 이상 향상 레노버 글로벌 테크놀...
    Date2025.06.20 Bynewsit Views527
    Read More
  19. 한국퀀텀컴퓨팅, '퀀텀코리아 2025' 참가…“양자컴퓨팅 및 AI 인프라 사업과 서비스 소개”

    - '퀀텀코리아 2025'에서 양자컴퓨팅 및 AI 인프라와 관련된 주요 사업과 서비스 소개 예정 - 6월 25일(수), 전시회 컨퍼런스에서 KQC 오상근 부사장이 '사이버 보안에서 PQC 기반 HSM의 중요 역할'을 주제로 세션 진행 - 국내 기업들이 KQC의 양자컴퓨팅 풀 ...
    Date2025.06.20 Bynewsit Views320
    Read More
  20. 슈나이더 일렉트릭 코리아, ‘PLM/DX 컨퍼런스 2025’서 소프트웨어 정의 자동화 전략 소개

    - 자동화의 모듈화 및 유연성을 높이는 핵심 기술로 IEC 61499 국제 표준 소개 - 슈나이더 일렉트릭의 EAE 플랫폼으로 실현하는 유연하고 지속 가능한 자동화 인사이트 공유 슈나이더 일렉트릭 코리아는 6월 20일(금) 서울 코엑스에서 개최되는 ‘PLM/DX 베스트...
    Date2025.06.20 Bynewsit Views266
    Read More
Board Pagination Prev 1 ... 212 213 214 215 216 217 218 219 220 221 ... 249 Next
/ 249
CLOSE