- FP8 양자화, 텐서RT 최적화로 VRAM 사용 40% 줄이고, 처리 속도 2배 향상

- 개발자용 RTX 전용 텐서RT SDK 출시경량화, JIT 컴파일 지원

 

엔비디아, 모델 양자화로 ‘스테이블 디퓨전 3.5’ 성능 대폭 향상.jpg

 

 

 

 

엔비디아가 양자화를 통해 스테이블 디퓨전 3.5(Stable Diffusion 3.5) 모델의 성능을 대폭 향상시켰다고 발표했다. 생성형 AI는 사람들이 디지털 콘텐츠를 만들고, 상상하며, 상호작용하는 방식을 혁신적으로 바꾸고 있다. 그러나 지속적으로 AI 모델의 기능이 향상되고 복잡성이 증가면서 더 많은 VRAM이 요구되고 있다. 예를 들어 기본 스테이블 디퓨전 3.5 라지(Large) 모델은 18GB 이상의 VRAM을 사용하므로 고성능 시스템이 아니면 실행이 어렵다.

 

하지만 이 모델에 양자화를 적용하면 중요하지 않은 레이어를 제거하거나 더 낮은 정밀도로도 실행할 수 있다. 엔비디아 지포스(GeForce) RTX 40 시리즈와 에이다 러브레이스(Ada Lovelace) 세대 엔비디아 RTX PRO GPU는 FP8 양자화를 지원해 이러한 경량화된 모델을 실행할 수 있다. 또한 최신 엔비디아 블랙웰(Blackwell) GPU는 FP4도 지원한다.

 

엔비디아는 스태빌리티 AI(Stability AI)와 협력해 최신 모델인 스테이블 디퓨전 3.5 라지를 FP8로 양자화해 VRAM 사용량을 40%까지 줄였다. 여기에 엔비디아 텐서RT(TensorRT) 소프트웨어 개발 키트(SDK)를 통한 최적화로 스테이블 디퓨전 3.5 라지와 미디엄 모델의 성능을 2배로 끌어올렸다.

 

또한, 텐서RT가 RTX AI PC 환경을 위해 새롭게 설계됐다. 업계 최고 수준의 성능과 JIT(Just-In-Time), 온디바이스 엔진 구축 기능을 더하고 패키지 크기를 8배 줄여 1억 대 이상의 RTX AI PC에 AI를 원활하게 배포할 수 있게 됐다. RTX용 텐서RT는 이제 개발자를 위한 독립형 SDK로 제공된다.

 

RTX 기반 AI 가속

엔비디아와 스태빌리티 AI는 세계에서 가장 인기 있는 AI 이미지 생성 모델 중 하나인 스테이블 디퓨전 3.5의 성능을 높이고 VRAM 요구 사항을 낮췄다. 엔비디아 텐서RT 가속과 양자화 기술을 통해, 사용자는 엔비디아 RTX GPU에서 이미지를 더 빠르고 효율적으로 생성하고 편집할 수 있다.

스테이블 디퓨전 3.5 FP8 양자화 모델(오)은 FP16 모델(왼)과 유사한 품질을 유지하면서 이미지 생성 시간을 절반으로 단축시킨다.jpg

스테이블 디퓨전 3.5 FP8 양자화 모델(오)은 FP16 모델(왼)과 유사한 품질을 유지하면서 이미지 생성 시간을 절반으로 단축시킨다.

프롬프트: 해 뜨는 고요한 산속 호수, 눈 덮인 봉우리를 반사하는 맑은 물, 호수를 따라 펼쳐진 울창한 소나무 숲, 부드러운 아침 안개, 사진처럼 사실적인 고화질의 생생한 색감

 

스테이블 디퓨전 3.5 라지의 VRAM 한계를 해결하기 위해 이 모델은 텐서RT를 활용해 FP8로 양자화됐다. 그 결과, VRAM 요구량이 40% 줄어 11GB면 충분해졌다. 즉, 단 한 대의 GPU가 아닌 다섯 대의 지포스 RTX 50 시리즈 GPU가 메모리에서 모델을 동시에 실행할 수 있게 됐다.

 

또한 스테이블 디퓨전 3.5 라지와 미디엄 모델은 텐서RT를 통해 최적화됐다. 텐서RT는 텐서 코어를 최대한 활용할 수 있도록 설계된 AI 백엔드로, 모델의 가중치와 모델 실행을 위한 명령 체계인 그래프를 RTX GPU에 맞게 최적화한다.

 

FP8 텐서RT는 스테이블 디퓨전 3.5 라지의 성능을 BF16 파이토치 대비 2.3배 향상시키면서 메모리 사용량은 40_ 줄여준다. 스테이블 디퓨전 3.5 미디엄의 경우, BF16 텐서RT는 BF16 파이토치 대비 1..jpg

FP8 텐서RT는 스테이블 디퓨전 3.5 라지의 성능을 BF16 파이토치 대비 2.3배 향상시키면서 메모리 사용량은 40% 줄여준다. 스테이블 디퓨전 3.5 미디엄의 경우, BF16 텐서RT는 BF16 파이토치 대비 1.7배 더 빠르다.

 

FP8 텐서RT를 적용한 결과, 스테이블 디퓨전 3.5 라지 모델은 BF16 파이토치(PyTorch)에서 실행했을 때보다 성능이 2.3배 향상됐고, 메모리 사용량은 40% 감소했다. 스테이블 디퓨전 3.5 미디엄 모델도 BF16 텐서RT를 통해 BF16 파이토치 대비 1.7배 더 높은 성능을 발휘했다.

 

이처럼 최적화된 모델은 현재 스태빌리티 AI의 허깅페이스(Hugging Face) 페이지에서 이용할 수 있다.

 

또한 엔비디아와 스태빌리티 AI는 스테이블 디퓨전 3.5 모델을 엔비디아 NIM 마이크로서비스 형태로도 출시할 계획이다. 이를 통해 크리에이터와 개발자는 다양한 애플리케이션에서 보다 쉽게 모델을 접근하고 배포할 수 있게 된다. 해당 NIM 마이크로서비스는 오는 7월 출시될 예정이다.

 

RTX용 텐서RT SDK 출시

엔비디아 RTX용 텐서RT가 독립형 SDK로 새롭게 제공된다. RTX용 텐서RT는 지난 마이크로소프트 빌드(Microsoft Build)에서 발표됐으며, 이미 새로운 윈도우 ML(Windows ML) 프레임워크의 일부로 프리뷰 버전으로 제공되고 있다.

 

기존에는 개발자가 각 GPU 클래스에 맞는 텐서RT 엔진을 미리 생성하고 패키징해야 했다. 이 과정은 GPU별 최적화가 가능하지만, 시간이 많이 소요되는 단점이 있었다. 그러나 새로운 버전의 텐서RT를 사용하면 개발자는 단 몇 초 만에 디바이스에 최적화되는 범용 텐서RT 엔진을 생성할 수 있다. 이 JIT 컴파일 방식은 소프트웨어 설치 시 또는 기능을 처음 사용할 때 백그라운드에서 실행된다.

 

새로운 SDK는 통합이 간편해지고, 이전 대비 8배 더 작아졌다. 이는 마이크로소프트의 새로운 AI 추론 백엔드인 윈도우 ML을 통해 쉽게 호출할 수 있다. 새로운 독립형 SDK는 엔비디아 개발자(NVIDIA Developer) 페이지에서 다운로드하거나, 윈도우 ML 프리뷰를 통해 테스트해볼 수 있다.

 

#엔비디아#RTX#FP8#스테이블디퓨전#

?

  1. 마우저, ADI의 ADIN3310/ADIN6310 산업용 이더넷 스위치 공급…“신뢰할 수 있는 저지연 통신 지원”

    마우저 일렉트로닉스는 아나로그디바이스(ADI)의 ADIN3310 및 ADIN6310 산업용 이더넷 스위치를 공급한다고 밝혔다. 다양한 용도로 활용 가능한 이 3포트 및 6포트 기가비트 이더넷 TSN 스위치는 복잡한 네트워크 환경에서도 신뢰할 수 있는 저지연 통신을 지...
    Date2025.06.26 Bynewsit Views288
    Read More
  2. HDMI 포럼, 최신 HDMI 2.2 규격 출시

    - HDMI 2.2 규격, 최적의 경험을 위한 96Gdps 고대역폭과 고정 전송 신호(FRL) 기술 제공 - 최대 12K 120Hz 및 16K 60Hz까지 보다 높은 해상도와 빠른 재생률 지원 - 오디오와 비디오 동기화 개선하는 지연 시간 표시 프로토콜(LIP)로 멀티홉 시스템 구성 - 새...
    Date2025.06.26 Bynewsit Views420
    Read More
  3. 세일즈포스, 차세대 디지털 워크포스 플랫폼 ‘에이전트포스 3’ 발표…“확장성과 연결성을 겸비한 차세대 AI 에이전트 플랫폼으로 AI 혁신 가속화”

    - AI 에이전트 활용 돕는 ‘커맨드 센터’ 기능 추가, 조직 내 AI 에이전트 관제탑 역할 수행… 가시성 및 제어력 향상 - MCP 기반 오픈 생태계 지원 및 A2A 환경 구축, AWS, 구글클라우드, IBM 등 30여 개 세일즈포스 파트너사 활용… 다양한 AI 에이전트 간 손쉬...
    Date2025.06.26 Bynewsit Views460
    Read More
  4. No Image

    레이저, 모바일 게이머를 위한 최적의 컨트롤러 ‘키시 V3’ 시리즈 출시

    - Razer Kishi V3, Razer Kishi V3 Pro, Razer Kishi V3 Pro XL 레이저(Razer)가 모바일 게이밍 컨트롤러 키시(Kishi) 라인업의 신제품 키시 V3 시리즈 3종을 국내 시장에 출시한다고 밝혔다. 키시 V3 시리즈는 인체공학적 설계와 풀사이즈 썸스틱, 레이저 Nex...
    Date2025.06.25 Bynewsit Views174
    Read More
  5. 라바웨이브, “딥페이크·몸캠피싱 대법원 양형기준 강화 환영”

    - 대법원 디지털 성범죄 양형기준 강화…범죄 수법 고도화 우려 - 라바웨이브, AI 기반 솔루션 ‘라바 스캐너’ 기술적 대응 역량 확대 - 딥페이크·몸캠피싱 디지털 범죄 수법 진화에 맞춰 피해자 보호 역량 지속 강화 디지털 범죄 대응 전문기업 라바웨이브는 최...
    Date2025.06.25 Bynewsit Views161
    Read More
  6. 엘앤에프, 자체 개발 생성형 AI '루시드' 도입…"디지털 혁신 가속화"

    - 사내 지식 기반 AI 챗봇 ‘루시드’ 도입… 스마트한 업무 환경 구축 - 4단계 AI 혁신 전략 추진… 데이터 기반 의사결정·업무 품질 향상 - 자동화 통합 AX 플랫폼 구축 목표, 사무에서 스마트팩토리까지 AI 기술 확대 적용 계획 엘앤에프가 자체 개발한 생성형 ...
    Date2025.06.25 Bynewsit Views470
    Read More
  7. 아비바, ‘2024 지속가능성 보고서’ 주요 지표 공개

    - 5년째 발간하고 있는 연례 지속가능성 보고서 통해 산업 인텔리전스가 전 세계 기후 문제 해결에 중추적인 역할을 하는 방법론 소개 - 아비바 전 제품에 대한 친환경 제품 설계 성숙도 평가 완료하며 솔루션의 85%에 대한 탄소 배출 측정 - 직접 배출 및 간...
    Date2025.06.25 Bynewsit Views399
    Read More
  8. 유니버설 로봇, ‘유니버설 로봇 스튜디오(UR Studio)’ 출시…“최적의 로봇 셀 맞춤형 설계 가능”

    글로벌 1위 협동로봇 전문 기업 ‘유니버설 로봇(Universal Robots)’이 온라인 협동로봇 시뮬레이션 도구 ‘유니버설 로봇 스튜디오(UR Studio)’를 공개했다. 유니버설 로봇 스튜디오는 현존하는 가장 진보된 개방형 AI 기반 소프트웨어 플랫폼인 폴리스코프 X(P...
    Date2025.06.25 Bynewsit Views655
    Read More
  9. 딥엘, 번역기 및 API 지원 언어 확대…“글로벌 비즈니스 커뮤니케이션·문서 번역 역량 강화”

    - 번역기·API에 베트남어·히브리어·태국어 추가…문서 번역 기능엔 중국어 번체·아랍어 지원 딥엘(DeepL)이 자사 플랫폼에 베트남어, 히브리어, 태국어(현재는 DeepL API에서만 이용 가능한 초기 제공 버전) 등 3개 언어를 새롭게 추가했다. 이번 업데이트로 딥...
    Date2025.06.25 Bynewsit Views692
    Read More
  10. 마에스트로 포렌식, 법 집행기관 종사자 대상 ‘디지털 포렌식 세미나’ 성료

    - AI 기반 디지털 증거 분석 및 침해사고 조사 방법 제시 마에스트로 포렌식은 19일 ‘디지털 포렌식 및 침해사고 포렌식 (DFIR) 세미나’를 열고 악성코드 통합 검증 시스템 기반의 디지털 증거 분석 및 침해사고 방법론을 소개했다. 이날 세미나에는 경찰, 검...
    Date2025.06.25 Bynewsit Views186
    Read More
  11. 카스퍼스키, ‘OT 사이버 보안 현황 보고서’ 발표…“제조 기업의 25% 사이버 공격으로 500만 달러 이상의 피해”

    카스퍼스키 오늘, 카스퍼스키와 시장조사기관 VDC 리서치가 공동으로 수행한 카스퍼스키 ‘OT 사이버 보안 현황 보고서’를 발표했다. 보고서에 따르면 대다수의 산업 기업은 사이버 공격으로 인한 재정적 손실을 미화 100만 달러 이상으로 추산하고 있으며, 약 ...
    Date2025.06.24 Bynewsit Views177
    Read More
  12. 안랩 그룹, 정보보호 국제 표준 ‘ISO/IEC 27001:2022’ 인증 획득…“그룹 보안 관리 체계 강화”

    - 안랩 및 자회사 3사(안랩블록체인컴퍼니·제이슨·나온웍스), ISO 27001 주요 항목 전반 인증 획득 - 안랩, 2008년부터 18년간 ISO 27001 인증 유지 중, 자회사 3사는 올해 첫 인증 획득 후 매년 유지 예정 안랩이 최근 국제 표준 정보보호 인증 ‘ISO/IEC 2700...
    Date2025.06.24 Bynewsit Views139
    Read More
  13. 엠클라우드브리지, 폐쇄형 기업 업무 플랫폼 ‘Ai 365 Mesh’ 특허 등록…“한국형 조직도 권한 기반 Data & AI 통합”

    - 오픈AI, 코파일럿, MS패브릭 통합 폐쇄형 환경에서 한국형 조직도에 따라 지식 정보 및 분석 확인 - AD 조직도 기반 기업 중요 정보 접근 권한 관리 및 정보 유출 차단으로 AI 도입 시 보안 우려 해소 엠클라우드브리지가 한국형 조직도 권한 기반 Data & AI...
    Date2025.06.24 Bynewsit Views609
    Read More
  14. 가민, 초슬림 웰니스 스마트워치 ‘베뉴 X1’ 출시…2인치 대형 디스플레이 탑재

    - 2인치 사각형 아몰레드 디스플레이 탑재로 편의성과 가독성 모두 향상 - 세련되고 가벼운 디자인의 베뉴 X1…초경량 소재에 스피커∙마이크∙LED 플래시 라이트 탑재 가민이 건강 및 피트니스 기능에 특화된 초슬림 웰니스 스마트워치 ‘베뉴 X1(Venu X1)’을 출...
    Date2025.06.24 Bynewsit Views156
    Read More
  15. 알리바바 클라우드-유니플러스, 국내 스타트업 지원 파트너십 발표

    - 인천의 테크 스타트업 유니플러스와 협력해 지역 스타트업 대상 첨단 클라우드 및 블록체인 서비스 제공 - 알리바바 클라우드의 글로벌 인프라를 활용해 유니플러스 블록체인 솔루션의 해외 시장 확장 공동 지원 알리바바 클라우드가 인천에 본사를 둔 첨단 ...
    Date2025.06.24 Bynewsit Views431
    Read More
  16. 사이냅소프트, ‘문서 AI 기술세미나’ 개최…“문서 기반 RAG 기술 통찰 공유”

    - 고객사 보유 문서를 활용한 RAG 기반 AI 어시스턴트 구현 전략 소개 - AI 콘텐츠 크리에이터 테디노트, 협업툴 1등 잔디와 함께한 실전 세미나 사이냅소프트는 지난 6월 20일, 서울 마곡 R&D센터에서 ‘같은 LLM, 다른 결과: 데이터 품질이 만드는 압도적 차...
    Date2025.06.24 Bynewsit Views410
    Read More
  17. 한국퀀텀컴퓨팅-부산교통공사, 양자컴퓨팅을 활용한 ‘부산 도시철도 배차 최적화 연구’ 착수

    - 양자컴퓨터 활용해 대중교통 운영의 효율성을 연구하는 국내 최초 사례 - 혼잡 시간대 수요 분산, 에너지 절감, 인력 운영의 효율화 등 복잡한 변수간 상호작용을 고도화된 양자 알고리즘으로 분석 - 양자컴퓨팅 기반으로 도시철도 배차 최적화부터 재난 대...
    Date2025.06.24 Bynewsit Views419
    Read More
  18. ST, 고전력 가전제품에 적용하는 1600V IGBT 출시

    - 비용 및 에너지 효율에 민감한 가전제품 시장 적용 확대 ST마이크로일렉트로닉스가 1600V의 브레이크다운 전압과 우수한 열 성능의 STGWA30IH160DF2 IGBT를 출시했다. 이 디바이스는 소프트 스위칭 토폴로지의 효율성을 높이고 병렬 연결을 간소화하면서 인...
    Date2025.06.23 Bynewsit Views527
    Read More
  19. 로지텍, AI 기반 올인원 화상회의 솔루션 ‘랠리 보드 65’ 국내 정식 출시C

    - AI 오디오·비디오 기술을 터치스크린에 통합한 올인원 화상회의 솔루션, ‘랠리 보드 65’ - 회의실부터 개방형 협업 공간까지 자유로운 이동, 다양한 업무 방식 및 공간에 최적화된 협업 환경 제공 - ‘로지텍 싱크’를 통해 공간 활용도 분석, 회의실 환경 및 ...
    Date2025.06.23 Bynewsit Views152
    Read More
  20. 팔로알토 네트웍스 코리아, 전국 파트너 로드쇼 성료…“국내 파트너 에코시스템 경쟁력 극대화”

    - 서울, 대전, 부산에서 3일간 3개 도시 순회, 총 참가 규모 400명 - AI 기반 사이버 보안 전략 공유, 파트너 역량 및 생태계 협력 강화 팔로알토 네트웍스는 6월 17일부터 19일까지 서울, 대전, 부산에서 진행된 파트너 로드쇼를 성황리에 마무리했다고 밝혔...
    Date2025.06.23 Bynewsit Views179
    Read More
Board Pagination Prev 1 ... 50 51 52 53 54 55 56 57 58 59 ... 273 Next
/ 273
CLOSE