소프트웨어·컴퓨팅

2025.06.19 08:43

엔비디아, 모델 양자화로 ‘스테이블 디퓨전 3.5’ 성능 대폭 향상

newsit

https://hwlab.com/SW_Computing/15028 조회 수 522 추천 수 0 댓글 0

단축키

Prev이전 문서

Next다음 문서

가 크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄 첨부

단축키

Prev이전 문서

Next다음 문서

가 크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄 첨부

- FP8 양자화, 텐서RT 최적화로 VRAM 사용 40% 줄이고, 처리 속도 2배 향상

- 개발자용 RTX 전용 텐서RT SDK 출시…경량화, JIT 컴파일 지원

엔비디아, 모델 양자화로 ‘스테이블 디퓨전 3.5’ 성능 대폭 향상.jpg

엔비디아가 양자화를 통해 스테이블 디퓨전 3.5(Stable Diffusion 3.5) 모델의 성능을 대폭 향상시켰다고 발표했다. 생성형 AI는 사람들이 디지털 콘텐츠를 만들고, 상상하며, 상호작용하는 방식을 혁신적으로 바꾸고 있다. 그러나 지속적으로 AI 모델의 기능이 향상되고 복잡성이 증가면서 더 많은 VRAM이 요구되고 있다. 예를 들어 기본 스테이블 디퓨전 3.5 라지(Large) 모델은 18GB 이상의 VRAM을 사용하므로 고성능 시스템이 아니면 실행이 어렵다.

하지만 이 모델에 양자화를 적용하면 중요하지 않은 레이어를 제거하거나 더 낮은 정밀도로도 실행할 수 있다. 엔비디아 지포스(GeForce) RTX 40 시리즈와 에이다 러브레이스(Ada Lovelace) 세대 엔비디아 RTX PRO GPU는 FP8 양자화를 지원해 이러한 경량화된 모델을 실행할 수 있다. 또한 최신 엔비디아 블랙웰(Blackwell) GPU는 FP4도 지원한다.

엔비디아는 스태빌리티 AI(Stability AI)와 협력해 최신 모델인 스테이블 디퓨전 3.5 라지를 FP8로 양자화해 VRAM 사용량을 40%까지 줄였다. 여기에 엔비디아 텐서RT(TensorRT) 소프트웨어 개발 키트(SDK)를 통한 최적화로 스테이블 디퓨전 3.5 라지와 미디엄 모델의 성능을 2배로 끌어올렸다.

또한, 텐서RT가 RTX AI PC 환경을 위해 새롭게 설계됐다. 업계 최고 수준의 성능과 JIT(Just-In-Time), 온디바이스 엔진 구축 기능을 더하고 패키지 크기를 8배 줄여 1억 대 이상의 RTX AI PC에 AI를 원활하게 배포할 수 있게 됐다. RTX용 텐서RT는 이제 개발자를 위한 독립형 SDK로 제공된다.

RTX 기반 AI 가속

엔비디아와 스태빌리티 AI는 세계에서 가장 인기 있는 AI 이미지 생성 모델 중 하나인 스테이블 디퓨전 3.5의 성능을 높이고 VRAM 요구 사항을 낮췄다. 엔비디아 텐서RT 가속과 양자화 기술을 통해, 사용자는 엔비디아 RTX GPU에서 이미지를 더 빠르고 효율적으로 생성하고 편집할 수 있다.

스테이블 디퓨전 3.5 FP8 양자화 모델(오)은 FP16 모델(왼)과 유사한 품질을 유지하면서 이미지 생성 시간을 절반으로 단축시킨다.jpg

스테이블 디퓨전 3.5 FP8 양자화 모델(오)은 FP16 모델(왼)과 유사한 품질을 유지하면서 이미지 생성 시간을 절반으로 단축시킨다.

프롬프트: 해 뜨는 고요한 산속 호수, 눈 덮인 봉우리를 반사하는 맑은 물, 호수를 따라 펼쳐진 울창한 소나무 숲, 부드러운 아침 안개, 사진처럼 사실적인 고화질의 생생한 색감

스테이블 디퓨전 3.5 라지의 VRAM 한계를 해결하기 위해 이 모델은 텐서RT를 활용해 FP8로 양자화됐다. 그 결과, VRAM 요구량이 40% 줄어 11GB면 충분해졌다. 즉, 단 한 대의 GPU가 아닌 다섯 대의 지포스 RTX 50 시리즈 GPU가 메모리에서 모델을 동시에 실행할 수 있게 됐다.

또한 스테이블 디퓨전 3.5 라지와 미디엄 모델은 텐서RT를 통해 최적화됐다. 텐서RT는 텐서 코어를 최대한 활용할 수 있도록 설계된 AI 백엔드로, 모델의 가중치와 모델 실행을 위한 명령 체계인 그래프를 RTX GPU에 맞게 최적화한다.

FP8 텐서RT는 스테이블 디퓨전 3.5 라지의 성능을 BF16 파이토치 대비 2.3배 향상시키면서 메모리 사용량은 40_ 줄여준다. 스테이블 디퓨전 3.5 미디엄의 경우, BF16 텐서RT는 BF16 파이토치 대비 1..jpg

FP8 텐서RT는 스테이블 디퓨전 3.5 라지의 성능을 BF16 파이토치 대비 2.3배 향상시키면서 메모리 사용량은 40% 줄여준다. 스테이블 디퓨전 3.5 미디엄의 경우, BF16 텐서RT는 BF16 파이토치 대비 1.7배 더 빠르다.

FP8 텐서RT를 적용한 결과, 스테이블 디퓨전 3.5 라지 모델은 BF16 파이토치(PyTorch)에서 실행했을 때보다 성능이 2.3배 향상됐고, 메모리 사용량은 40% 감소했다. 스테이블 디퓨전 3.5 미디엄 모델도 BF16 텐서RT를 통해 BF16 파이토치 대비 1.7배 더 높은 성능을 발휘했다.

이처럼 최적화된 모델은 현재 스태빌리티 AI의 허깅페이스(Hugging Face) 페이지에서 이용할 수 있다.

또한 엔비디아와 스태빌리티 AI는 스테이블 디퓨전 3.5 모델을 엔비디아 NIM 마이크로서비스 형태로도 출시할 계획이다. 이를 통해 크리에이터와 개발자는 다양한 애플리케이션에서 보다 쉽게 모델을 접근하고 배포할 수 있게 된다. 해당 NIM 마이크로서비스는 오는 7월 출시될 예정이다.

RTX용 텐서RT SDK 출시

엔비디아 RTX용 텐서RT가 독립형 SDK로 새롭게 제공된다. RTX용 텐서RT는 지난 마이크로소프트 빌드(Microsoft Build)에서 발표됐으며, 이미 새로운 윈도우 ML(Windows ML) 프레임워크의 일부로 프리뷰 버전으로 제공되고 있다.

기존에는 개발자가 각 GPU 클래스에 맞는 텐서RT 엔진을 미리 생성하고 패키징해야 했다. 이 과정은 GPU별 최적화가 가능하지만, 시간이 많이 소요되는 단점이 있었다. 그러나 새로운 버전의 텐서RT를 사용하면 개발자는 단 몇 초 만에 디바이스에 최적화되는 범용 텐서RT 엔진을 생성할 수 있다. 이 JIT 컴파일 방식은 소프트웨어 설치 시 또는 기능을 처음 사용할 때 백그라운드에서 실행된다.

새로운 SDK는 통합이 간편해지고, 이전 대비 8배 더 작아졌다. 이는 마이크로소프트의 새로운 AI 추론 백엔드인 윈도우 ML을 통해 쉽게 호출할 수 있다. 새로운 독립형 SDK는 엔비디아 개발자(NVIDIA Developer) 페이지에서 다운로드하거나, 윈도우 ML 프리뷰를 통해 테스트해볼 수 있다.

#엔비디아#RTX#FP8#스테이블디퓨전#

Facebook Twitter Google Pinterest KakaoStory Band

Atachment
첨부 '3'	엔비디아, 모델 양자화로 ‘스테이블 디퓨전 3.5’ 성능 대폭 향상.jpg, 스테이블 디퓨전 3.5 FP8 양자화 모델(오)은 FP16 모델(왼)과 유사한 품질을 유지하면서 이미지 생성 시간을 절반으로 단축시킨다.jpg, FP8 텐서RT는 스테이블 디퓨전 3.5 라지의 성능을 BF16 파이토치 대비 2.3배 향상시키면서 메모리 사용량은 40_ 줄여준다. 스테이블 디퓨전 3.5 미디엄의 경우, BF16 텐서RT는 BF16 파이토치 대비 1..jpg,

위로 아래로 게시글 수정 내역 댓글로 가기 인쇄 첨부

✔댓글 쓰기

에디터 선택하기

✔ 텍스트 모드 ✔ 에디터 모드

댓글 쓰기

에디터 사용하기 닫기

소프트웨어·컴퓨팅

사이냅소프트, 프라이빗 AI 기반 지식관리 플랫폼 ‘키냅스’ 출시

– 별도 구축 없는 SaaS 방식… 문서 중앙화·협업·AI 검색까지 통합 제공 사이냅소프트가 기업 내부에 분산된 지식을 통합 관리하고 실시간 협업을 지원하는 SaaS 기반 지식관리 플랫폼 ‘키냅스(Kynapse)’를 12월 3일 공식 출시했다고 밝혔다. 분산된 문서 자산 ...

Date2025.12.03 Bynewsit Views126

Read More
레인보우로보틱스, HD현대미포 ‘스마트 조선소’ 위한 협동로봇 용접 시스템 공급

- JCT와 협력해 협동로봇 용접 시스템 35세트 수주...디지털 제조 기반 자동화 강화 레인보우로보틱스가 자동화 솔루션 기업 제이씨티와 함께 HD현대미포에 협동로봇 용접 시스템 35세트를 공급한다고 밝혔다. 공급 물량에는 협동로봇 30대(스페어 3대 포함)가...

Date2025.12.03 Bynewsit Views175

Read More
아비바, 디지털 트윈 포트폴리오 대폭 강화

– 엔지니어링·운영 데이터를 CONNECT 기반 단일 플랫폼에서 시각화해 산업 인텔리전스 향상 아비바(AVEVA)가 아비바 자산 정보 관리(AVEVA Asset Information Management), 아비바 시스템 플랫폼(AVEVA System Platform), 아비바 PI 데이터 인프라스트럭처(AVE...

Date2025.12.03 Bynewsit Views122

Read More
다쏘시스템–미스트랄 AI, 소버린 AI 파트너십 강화… 유럽 규제 산업 지원 확대

- AI 어시스턴트 ‘르 샤 엔터프라이즈’와 개발 플랫폼 ‘AI 스튜디오’, OUTSCALE 소버린 클라우드에서 제공 다쏘시스템과 미스트랄 AI가 유럽 규제 산업과 공공 부문을 겨냥한 소버린 AI 서비스 협력을 강화하며, 고기밀·고보안 AI 모델을 안전하게 활용할 수 ...

Date2025.12.02 Bynewsit Views177

Read More
티맥스소프트, ‘AI 솔루션 생태계’ 본격 확대… 2025 파트너 데이 개최

- ‘2025 파트너 데이’ 개최… 엔터프라이즈 AI 프레임워크·FY26 로드맵 발표 티맥스소프트가 오는 12일 서울 서초구 엘타워 스포타임에서 ‘2025 하반기 파트너 데이’를 열고 미래 AI 솔루션 생태계 구축 전략을 공유한다. 이번 행사는 엔터프라이즈 AI 비즈니스...

Date2025.12.02 Bynewsit Views160

Read More
AWS, ‘에이전틱 AI’ 29종 공개… 고객센터 자동화·상담원 지원 기능 강화

- 고객센터 자동화·상담원 지원·예측 인사이트·관측가능성 등 4대 영역 전반 업그레이드 아마존웹서비스(AWS)가 아마존 커넥트(Amazon Connect)에 29종의 신규 에이전틱 AI(agentic AI) 기능을 적용했다. 이번 업데이트는 음성·디지털 채널 자동화부터 상담원 ...

Date2025.12.02 Bynewsit Views177

Read More
IFA 베를린, 한국과의 파트너십 강화… 글로벌 혁신 교류의 장으로 자리매김

- 2026년 혁신·지속가능성·네트워킹 중심의 새 비전 제시 IFA 베를린이 오늘 서울에서 한국 기술 파트너들과의 협력을 재확인하며, 2026년 행사를 위한 새로운 비전과 방향성을 공개했다. 한국은 혁신과 성장을 주도하는 핵심 시장으로 꼽히며, IFA는 아시아-...

Date2025.12.02 Bynewsit Views173

Read More
딥엘, DeepL Agent·실시간 음성 번역 등 핵심 기술 시연

- 한국 기업 글로벌 협업 강화 전략 제시 딥엘이 오늘 DeepL Agent, 커스터마이제이션 허브, 실시간 음성 번역 기술 업데이트를 포함한 핵심 제품 전략을 공개했다. 이번 발표에는 1년 만에 방한한 딥엘 창업자 겸 CEO 야렉 쿠틸로브스키가 참여해 주요 기술을...

Date2025.12.02 Bynewsit Views153

Read More
큐브리드, DBMS 기반 디지털 재해복구 시스템 구축 전략 공개

- CUBRID HA 활용한 고가용성 아키텍처·DR 구성 방안 발표 큐브리드가 오는 4일 서울 코엑스에서 열리는 ‘제3회 디지털 재해복구 시스템 구축전략 컨퍼런스’에서 CUBRID HA 기반 고가용성 데이터베이스 아키텍처와 디지털 재해복구 전략을 공개하며, 공공·금융...

Date2025.12.02 Bynewsit Views119

Read More
EDB, ‘오라클 탈출’ 위한 라이선스·TCO 통합 진단 프로그램 발표

- 오라클 라이선스 구조·전환 리스크·TCO 절감까지 아우르는 통합 컨설팅 패키지 제공 EDB가 기업들의 오라클 의존도를 낮추고 전면적인 DB 전환 전략을 정교화할 수 있는 ‘탈(脫) 오라클 ROI & Risk 평가 프로그램’을 국내에 정식 도입하며, 라이선스 진단부...

Date2025.12.02 Bynewsit Views141

Read More

태그 쓰기

MSI, RTX50 DLSS4 기반 ‘바이오하자드 레퀴엠’ 번들 프...	04-02
데이터브릭스, 레이크하우스 기반 엔터프라이즈 AI 확...	04-01
엑시스, 통합 안전·운영 플랫폼 전략 공개… AI 엣지 기...	04-01
티맥스소프트, 제우스 11 국내 최초 자카르타 EE 11 인...	04-01
온세미, SiC 하이브리드 전력 모듈로 시능전기 태양광·...	04-01
레노버, 데이비드 베컴과 글로벌 파트너십 체결… AI 스...	04-01
카스퍼스키, 2025년 글로벌 보안 테스트 최다 1위 기록...	04-01
데이터이쿠, APJ 총괄에 앤드류 보이드 선임…기업 AI ...	03-31
ST, 중국서 STM32 양산… 40nm eNVM 기반 이중 공급망 구축	03-31
F5, ADSP에 통합 가시성·Agentic AI·양자내성암호 적용...	03-31

소프트웨어·컴퓨팅

소프트웨어·컴퓨팅

엔비디아, 모델 양자화로 ‘스테이블 디퓨전 3.5’ 성능 대폭 향상

단축키

단축키

소프트웨어·컴퓨팅

사이냅소프트, 프라이빗 AI 기반 지식관리 플랫폼 ‘키냅스’ 출시

레인보우로보틱스, HD현대미포 ‘스마트 조선소’ 위한 협동로봇 용접 시스템 공급

아비바, 디지털 트윈 포트폴리오 대폭 강화

다쏘시스템–미스트랄 AI, 소버린 AI 파트너십 강화… 유럽 규제 산업 지원 확대

티맥스소프트, ‘AI 솔루션 생태계’ 본격 확대… 2025 파트너 데이 개최

AWS, ‘에이전틱 AI’ 29종 공개… 고객센터 자동화·상담원 지원 기능 강화

IFA 베를린, 한국과의 파트너십 강화… 글로벌 혁신 교류의 장으로 자리매김

딥엘, DeepL Agent·실시간 음성 번역 등 핵심 기술 시연

큐브리드, DBMS 기반 디지털 재해복구 시스템 구축 전략 공개

EDB, ‘오라클 탈출’ 위한 라이선스·TCO 통합 진단 프로그램 발표