소프트웨어·컴퓨팅

2025.06.19 08:43

엔비디아, 모델 양자화로 ‘스테이블 디퓨전 3.5’ 성능 대폭 향상

newsit

https://hwlab.com/SW_Computing/15028 조회 수 523 추천 수 0 댓글 0

단축키

Prev이전 문서

Next다음 문서

가 크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄 첨부

단축키

Prev이전 문서

Next다음 문서

가 크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄 첨부

- FP8 양자화, 텐서RT 최적화로 VRAM 사용 40% 줄이고, 처리 속도 2배 향상

- 개발자용 RTX 전용 텐서RT SDK 출시…경량화, JIT 컴파일 지원

엔비디아, 모델 양자화로 ‘스테이블 디퓨전 3.5’ 성능 대폭 향상.jpg

엔비디아가 양자화를 통해 스테이블 디퓨전 3.5(Stable Diffusion 3.5) 모델의 성능을 대폭 향상시켰다고 발표했다. 생성형 AI는 사람들이 디지털 콘텐츠를 만들고, 상상하며, 상호작용하는 방식을 혁신적으로 바꾸고 있다. 그러나 지속적으로 AI 모델의 기능이 향상되고 복잡성이 증가면서 더 많은 VRAM이 요구되고 있다. 예를 들어 기본 스테이블 디퓨전 3.5 라지(Large) 모델은 18GB 이상의 VRAM을 사용하므로 고성능 시스템이 아니면 실행이 어렵다.

하지만 이 모델에 양자화를 적용하면 중요하지 않은 레이어를 제거하거나 더 낮은 정밀도로도 실행할 수 있다. 엔비디아 지포스(GeForce) RTX 40 시리즈와 에이다 러브레이스(Ada Lovelace) 세대 엔비디아 RTX PRO GPU는 FP8 양자화를 지원해 이러한 경량화된 모델을 실행할 수 있다. 또한 최신 엔비디아 블랙웰(Blackwell) GPU는 FP4도 지원한다.

엔비디아는 스태빌리티 AI(Stability AI)와 협력해 최신 모델인 스테이블 디퓨전 3.5 라지를 FP8로 양자화해 VRAM 사용량을 40%까지 줄였다. 여기에 엔비디아 텐서RT(TensorRT) 소프트웨어 개발 키트(SDK)를 통한 최적화로 스테이블 디퓨전 3.5 라지와 미디엄 모델의 성능을 2배로 끌어올렸다.

또한, 텐서RT가 RTX AI PC 환경을 위해 새롭게 설계됐다. 업계 최고 수준의 성능과 JIT(Just-In-Time), 온디바이스 엔진 구축 기능을 더하고 패키지 크기를 8배 줄여 1억 대 이상의 RTX AI PC에 AI를 원활하게 배포할 수 있게 됐다. RTX용 텐서RT는 이제 개발자를 위한 독립형 SDK로 제공된다.

RTX 기반 AI 가속

엔비디아와 스태빌리티 AI는 세계에서 가장 인기 있는 AI 이미지 생성 모델 중 하나인 스테이블 디퓨전 3.5의 성능을 높이고 VRAM 요구 사항을 낮췄다. 엔비디아 텐서RT 가속과 양자화 기술을 통해, 사용자는 엔비디아 RTX GPU에서 이미지를 더 빠르고 효율적으로 생성하고 편집할 수 있다.

스테이블 디퓨전 3.5 FP8 양자화 모델(오)은 FP16 모델(왼)과 유사한 품질을 유지하면서 이미지 생성 시간을 절반으로 단축시킨다.jpg

스테이블 디퓨전 3.5 FP8 양자화 모델(오)은 FP16 모델(왼)과 유사한 품질을 유지하면서 이미지 생성 시간을 절반으로 단축시킨다.

프롬프트: 해 뜨는 고요한 산속 호수, 눈 덮인 봉우리를 반사하는 맑은 물, 호수를 따라 펼쳐진 울창한 소나무 숲, 부드러운 아침 안개, 사진처럼 사실적인 고화질의 생생한 색감

스테이블 디퓨전 3.5 라지의 VRAM 한계를 해결하기 위해 이 모델은 텐서RT를 활용해 FP8로 양자화됐다. 그 결과, VRAM 요구량이 40% 줄어 11GB면 충분해졌다. 즉, 단 한 대의 GPU가 아닌 다섯 대의 지포스 RTX 50 시리즈 GPU가 메모리에서 모델을 동시에 실행할 수 있게 됐다.

또한 스테이블 디퓨전 3.5 라지와 미디엄 모델은 텐서RT를 통해 최적화됐다. 텐서RT는 텐서 코어를 최대한 활용할 수 있도록 설계된 AI 백엔드로, 모델의 가중치와 모델 실행을 위한 명령 체계인 그래프를 RTX GPU에 맞게 최적화한다.

FP8 텐서RT는 스테이블 디퓨전 3.5 라지의 성능을 BF16 파이토치 대비 2.3배 향상시키면서 메모리 사용량은 40_ 줄여준다. 스테이블 디퓨전 3.5 미디엄의 경우, BF16 텐서RT는 BF16 파이토치 대비 1..jpg

FP8 텐서RT는 스테이블 디퓨전 3.5 라지의 성능을 BF16 파이토치 대비 2.3배 향상시키면서 메모리 사용량은 40% 줄여준다. 스테이블 디퓨전 3.5 미디엄의 경우, BF16 텐서RT는 BF16 파이토치 대비 1.7배 더 빠르다.

FP8 텐서RT를 적용한 결과, 스테이블 디퓨전 3.5 라지 모델은 BF16 파이토치(PyTorch)에서 실행했을 때보다 성능이 2.3배 향상됐고, 메모리 사용량은 40% 감소했다. 스테이블 디퓨전 3.5 미디엄 모델도 BF16 텐서RT를 통해 BF16 파이토치 대비 1.7배 더 높은 성능을 발휘했다.

이처럼 최적화된 모델은 현재 스태빌리티 AI의 허깅페이스(Hugging Face) 페이지에서 이용할 수 있다.

또한 엔비디아와 스태빌리티 AI는 스테이블 디퓨전 3.5 모델을 엔비디아 NIM 마이크로서비스 형태로도 출시할 계획이다. 이를 통해 크리에이터와 개발자는 다양한 애플리케이션에서 보다 쉽게 모델을 접근하고 배포할 수 있게 된다. 해당 NIM 마이크로서비스는 오는 7월 출시될 예정이다.

RTX용 텐서RT SDK 출시

엔비디아 RTX용 텐서RT가 독립형 SDK로 새롭게 제공된다. RTX용 텐서RT는 지난 마이크로소프트 빌드(Microsoft Build)에서 발표됐으며, 이미 새로운 윈도우 ML(Windows ML) 프레임워크의 일부로 프리뷰 버전으로 제공되고 있다.

기존에는 개발자가 각 GPU 클래스에 맞는 텐서RT 엔진을 미리 생성하고 패키징해야 했다. 이 과정은 GPU별 최적화가 가능하지만, 시간이 많이 소요되는 단점이 있었다. 그러나 새로운 버전의 텐서RT를 사용하면 개발자는 단 몇 초 만에 디바이스에 최적화되는 범용 텐서RT 엔진을 생성할 수 있다. 이 JIT 컴파일 방식은 소프트웨어 설치 시 또는 기능을 처음 사용할 때 백그라운드에서 실행된다.

새로운 SDK는 통합이 간편해지고, 이전 대비 8배 더 작아졌다. 이는 마이크로소프트의 새로운 AI 추론 백엔드인 윈도우 ML을 통해 쉽게 호출할 수 있다. 새로운 독립형 SDK는 엔비디아 개발자(NVIDIA Developer) 페이지에서 다운로드하거나, 윈도우 ML 프리뷰를 통해 테스트해볼 수 있다.

#엔비디아#RTX#FP8#스테이블디퓨전#

Facebook Twitter Google Pinterest KakaoStory Band

Atachment
첨부 '3'	엔비디아, 모델 양자화로 ‘스테이블 디퓨전 3.5’ 성능 대폭 향상.jpg, 스테이블 디퓨전 3.5 FP8 양자화 모델(오)은 FP16 모델(왼)과 유사한 품질을 유지하면서 이미지 생성 시간을 절반으로 단축시킨다.jpg, FP8 텐서RT는 스테이블 디퓨전 3.5 라지의 성능을 BF16 파이토치 대비 2.3배 향상시키면서 메모리 사용량은 40_ 줄여준다. 스테이블 디퓨전 3.5 미디엄의 경우, BF16 텐서RT는 BF16 파이토치 대비 1..jpg,

위로 아래로 게시글 수정 내역 댓글로 가기 인쇄 첨부

✔댓글 쓰기

에디터 선택하기

✔ 텍스트 모드 ✔ 에디터 모드

댓글 쓰기

에디터 사용하기 닫기

소프트웨어·컴퓨팅

사이냅소프트, '공공정보화 리더스 포럼 2025'에서 HWP 문서 기반 RAG 활용 방안 제시

- “같은 LLM, 다른 결과: 공공문서(HWP) 효과적으로 RAG에 활용하는 방법" 발표 - 현직 공공기관 정보화 담당자 200명 대상 온라인 세미나에서 높은 관심 사이냅소프트는 '2025 공공정보화 리더스 포럼'에 참여하여 "같은 LLM, 다른 결과: 공공문서(HWP) 효과...

Date2025.07.25 Bynewsit Views576

Read More
HPE, 2025 데이터 서비스 이노베이션 데이 성료

- HPE 가상화 VM 에센셜 기반 최신 SimpliVity 인프라, AI 시대 스토리지 운영 전략 공유 한국 HPE는 24일 서울 포시즌스 호텔에서 ‘2025 HPE 데이터 서비스 이노베이션 데이(2025 HPE Data services Innovation Day)’를 개최했다고 밝혔다. 올해로 3년차를 맞...

Date2025.07.25 Bynewsit Views537

Read More
삼성SDS, 2분기 매출 3조5120억원·영업이익 2302억원 잠정실적 발표

삼성SDS는 2분기 매출액 3조5120억원, 영업이익 2302억원의 잠정실적을 발표했다. 전년 동기 대비 매출액과 영업이익이 4.2%씩 증가했다. IT 서비스 부문 매출액은 지난해 같은 기간 대비 5.8% 증가한 1조6784억원으로 집계됐으며, 클라우드 사업 매출액은 약 ...

Date2025.07.24 Bynewsit Views568

Read More
테스토코리아, 여름철 식중독 예방을 위한 ‘식품용 온도계’ 신제품 3종 발표

- testo 104-IR BT, 탐침형 온도 측정과 적외선 온도 측정 두 가지 기능을 탑재한 듀얼 온도계 - testo 110 FOOD, 다양한 프로브를 탈부착해 여러 환경에서 활용할 수 있는 다용성 온도계 - testo 270 BT, 정밀 센서와 블루투스 기능이 탑재된 식용유 산패 측...

Date2025.07.24 Bynewsit Views527

Read More
카테노이드, 콜러스에 AI 자막 기능 출시...“정확도 높은 자막 자동 생성으로 콘텐츠 전달력 강화”

- 최신 STT 기반 고정밀 자막 자동 생성... 글로벌 상용 기술을 상회하는 정확도 - 오디오 기반 자동 자막 분할로 가독성·전달력 향상 - 12월까지 출시 기념 프로모션... 매월 600분 무료 자막 생성 카테노이드가 자사 온라인 비디오 플랫폼 ‘콜러스(Kollus)’...

Date2025.07.24 Bynewsit Views479

Read More
헥사곤-가천대, ‘3D 기반 설계·해석 전문 인력 양성’ 업무협약 체결

- 3D 기반 설계·해석 및 시뮬레이션 역량 강화를 위한 디지털 엔지니어링 협력 헥사곤 매뉴팩처링 인텔리전스가 지난 22일 가천대학교와 3D 기반 설계·해석 전문 인재 양성과 실무형 교육과정 산학협력 양해각서(MOU)를 체결했다. 이번 협약식은 가천대학교 가...

Date2025.07.23 Bynewsit Views538

Read More
한국퀀텀컴퓨팅, Crypto4A와 전략적 파트너십 체결…“국내 최초 양자내성암호(PQC) 기반 보안 솔루션 상용화 본격화”

- 양자내성암호(PQC) 기반의 하드웨어 보안 모듈(HSM) 도입을 가속화하기 위한 파트너십 체결 - 국제 표준 및 국내 보안인증 확보 목표 - 한국형 양자저항 암호화(KpqC) 적용을 통한 독자 기술 개발로 한국은 물론 아시아 지역에서 공동 시장 진출 전략 수립 ...

Date2025.07.23 Bynewsit Views499

Read More
슈나이더 일렉트릭, 토트넘 홋스퍼 스타디움에 전력 솔루션 공급…“에코스트럭처 기반 에너지 관리”

- 에코스트럭처(EcoStruxure) 기반 에너지 관리로 탄소중립 목표 지원 - 실시간 에너지 모니터링부터 자동화 제어, 예지보전까지 아우르는 통합 에너지 관리 체계 제공 슈나이더 일렉트릭이 영국 런던에 위치한 토트넘 홋스퍼 스타디움(Tottenham Hotspur Stad...

Date2025.07.22 Bynewsit Views473

Read More
씨앤씨인터내셔널, 다쏘시스템 ‘3D익스피리언스’ 플랫폼 도입

- 다쏘시스템 3D익스피리언스 플랫폼, 제품 기획부터 연구개발, 생산, 유통 전 PLM 과정 통합으로 실시간 데이터 공유와 유기적인 협업 환경 지원 - 씨앤씨인터내셔널, PLM 솔루션 구축 통해 개발 효율성 및 품질 경쟁력 강화 다쏘시스템코리아는 글로벌 화장...

Date2025.07.22 Bynewsit Views548

Read More
알리바바 클라우드, 최신 옴디아 GenAI 보고서에서 '리더'로 선정

- 아시아·오세아니아 지역 클라우드 제공업체 가운데 총 9개 평가 항목 중 7개 부문에서 최고 등급 획득 알리바바 클라우드가 글로벌 시장조사 기관 옴디아(Omdia)의 최신 보고서 <마켓 레이더: 2025 아시아 및 오세아니아 지역 생성형 AI 클라우드 대표 기업(...

Date2025.07.21 Bynewsit Views491

Read More

태그 쓰기

마우저, 디지 커넥트 센서 XRT-M 공급...원격 센서 모...	04-03
사이냅소프트, 문서 AI·RAG 기반 도서관 AX 전환 지원	04-03
EDB, 엔비디아 GPU 결합…Postgres 분석 최대 100배 ...	04-03
유아이패스, 구매-지급(P2P) 에이전틱 AI 솔루션 공개…...	04-02
사이냅소프트, OCR IX CPU 출시… GPU 없이 AI OCR 실행...	04-02
마에스트로 포렌식, DFIR 대응 파이프라인 세미나 개최...	04-02
AIWORKX, 생성형 AI 기반 비대면 기업카드 심사 자동화...	04-02
한국공작기계산업협회, 이탈리아 초감가상각제도 EU산 ...	04-02
티머니, 기후동행카드 10% T마일리지 페이백 프로모션 ...	04-02
MSI, RTX50 DLSS4 기반 ‘바이오하자드 레퀴엠’ 번들 프...	04-02

소프트웨어·컴퓨팅

소프트웨어·컴퓨팅

엔비디아, 모델 양자화로 ‘스테이블 디퓨전 3.5’ 성능 대폭 향상

단축키

단축키

소프트웨어·컴퓨팅

사이냅소프트, '공공정보화 리더스 포럼 2025'에서 HWP 문서 기반 RAG 활용 방안 제시

HPE, 2025 데이터 서비스 이노베이션 데이 성료

삼성SDS, 2분기 매출 3조5120억원·영업이익 2302억원 잠정실적 발표

테스토코리아, 여름철 식중독 예방을 위한 ‘식품용 온도계’ 신제품 3종 발표

카테노이드, 콜러스에 AI 자막 기능 출시...“정확도 높은 자막 자동 생성으로 콘텐츠 전달력 강화”

헥사곤-가천대, ‘3D 기반 설계·해석 전문 인력 양성’ 업무협약 체결

한국퀀텀컴퓨팅, Crypto4A와 전략적 파트너십 체결…“국내 최초 양자내성암호(PQC) 기반 보안 솔루션 상용화 본격화”

슈나이더 일렉트릭, 토트넘 홋스퍼 스타디움에 전력 솔루션 공급…“에코스트럭처 기반 에너지 관리”

씨앤씨인터내셔널, 다쏘시스템 ‘3D익스피리언스’ 플랫폼 도입

알리바바 클라우드, 최신 옴디아 GenAI 보고서에서 '리더'로 선정