- FP8 양자화, 텐서RT 최적화로 VRAM 사용 40% 줄이고, 처리 속도 2배 향상

- 개발자용 RTX 전용 텐서RT SDK 출시경량화, JIT 컴파일 지원

 

엔비디아, 모델 양자화로 ‘스테이블 디퓨전 3.5’ 성능 대폭 향상.jpg

 

 

 

 

엔비디아가 양자화를 통해 스테이블 디퓨전 3.5(Stable Diffusion 3.5) 모델의 성능을 대폭 향상시켰다고 발표했다. 생성형 AI는 사람들이 디지털 콘텐츠를 만들고, 상상하며, 상호작용하는 방식을 혁신적으로 바꾸고 있다. 그러나 지속적으로 AI 모델의 기능이 향상되고 복잡성이 증가면서 더 많은 VRAM이 요구되고 있다. 예를 들어 기본 스테이블 디퓨전 3.5 라지(Large) 모델은 18GB 이상의 VRAM을 사용하므로 고성능 시스템이 아니면 실행이 어렵다.

 

하지만 이 모델에 양자화를 적용하면 중요하지 않은 레이어를 제거하거나 더 낮은 정밀도로도 실행할 수 있다. 엔비디아 지포스(GeForce) RTX 40 시리즈와 에이다 러브레이스(Ada Lovelace) 세대 엔비디아 RTX PRO GPU는 FP8 양자화를 지원해 이러한 경량화된 모델을 실행할 수 있다. 또한 최신 엔비디아 블랙웰(Blackwell) GPU는 FP4도 지원한다.

 

엔비디아는 스태빌리티 AI(Stability AI)와 협력해 최신 모델인 스테이블 디퓨전 3.5 라지를 FP8로 양자화해 VRAM 사용량을 40%까지 줄였다. 여기에 엔비디아 텐서RT(TensorRT) 소프트웨어 개발 키트(SDK)를 통한 최적화로 스테이블 디퓨전 3.5 라지와 미디엄 모델의 성능을 2배로 끌어올렸다.

 

또한, 텐서RT가 RTX AI PC 환경을 위해 새롭게 설계됐다. 업계 최고 수준의 성능과 JIT(Just-In-Time), 온디바이스 엔진 구축 기능을 더하고 패키지 크기를 8배 줄여 1억 대 이상의 RTX AI PC에 AI를 원활하게 배포할 수 있게 됐다. RTX용 텐서RT는 이제 개발자를 위한 독립형 SDK로 제공된다.

 

RTX 기반 AI 가속

엔비디아와 스태빌리티 AI는 세계에서 가장 인기 있는 AI 이미지 생성 모델 중 하나인 스테이블 디퓨전 3.5의 성능을 높이고 VRAM 요구 사항을 낮췄다. 엔비디아 텐서RT 가속과 양자화 기술을 통해, 사용자는 엔비디아 RTX GPU에서 이미지를 더 빠르고 효율적으로 생성하고 편집할 수 있다.

스테이블 디퓨전 3.5 FP8 양자화 모델(오)은 FP16 모델(왼)과 유사한 품질을 유지하면서 이미지 생성 시간을 절반으로 단축시킨다.jpg

스테이블 디퓨전 3.5 FP8 양자화 모델(오)은 FP16 모델(왼)과 유사한 품질을 유지하면서 이미지 생성 시간을 절반으로 단축시킨다.

프롬프트: 해 뜨는 고요한 산속 호수, 눈 덮인 봉우리를 반사하는 맑은 물, 호수를 따라 펼쳐진 울창한 소나무 숲, 부드러운 아침 안개, 사진처럼 사실적인 고화질의 생생한 색감

 

스테이블 디퓨전 3.5 라지의 VRAM 한계를 해결하기 위해 이 모델은 텐서RT를 활용해 FP8로 양자화됐다. 그 결과, VRAM 요구량이 40% 줄어 11GB면 충분해졌다. 즉, 단 한 대의 GPU가 아닌 다섯 대의 지포스 RTX 50 시리즈 GPU가 메모리에서 모델을 동시에 실행할 수 있게 됐다.

 

또한 스테이블 디퓨전 3.5 라지와 미디엄 모델은 텐서RT를 통해 최적화됐다. 텐서RT는 텐서 코어를 최대한 활용할 수 있도록 설계된 AI 백엔드로, 모델의 가중치와 모델 실행을 위한 명령 체계인 그래프를 RTX GPU에 맞게 최적화한다.

 

FP8 텐서RT는 스테이블 디퓨전 3.5 라지의 성능을 BF16 파이토치 대비 2.3배 향상시키면서 메모리 사용량은 40_ 줄여준다. 스테이블 디퓨전 3.5 미디엄의 경우, BF16 텐서RT는 BF16 파이토치 대비 1..jpg

FP8 텐서RT는 스테이블 디퓨전 3.5 라지의 성능을 BF16 파이토치 대비 2.3배 향상시키면서 메모리 사용량은 40% 줄여준다. 스테이블 디퓨전 3.5 미디엄의 경우, BF16 텐서RT는 BF16 파이토치 대비 1.7배 더 빠르다.

 

FP8 텐서RT를 적용한 결과, 스테이블 디퓨전 3.5 라지 모델은 BF16 파이토치(PyTorch)에서 실행했을 때보다 성능이 2.3배 향상됐고, 메모리 사용량은 40% 감소했다. 스테이블 디퓨전 3.5 미디엄 모델도 BF16 텐서RT를 통해 BF16 파이토치 대비 1.7배 더 높은 성능을 발휘했다.

 

이처럼 최적화된 모델은 현재 스태빌리티 AI의 허깅페이스(Hugging Face) 페이지에서 이용할 수 있다.

 

또한 엔비디아와 스태빌리티 AI는 스테이블 디퓨전 3.5 모델을 엔비디아 NIM 마이크로서비스 형태로도 출시할 계획이다. 이를 통해 크리에이터와 개발자는 다양한 애플리케이션에서 보다 쉽게 모델을 접근하고 배포할 수 있게 된다. 해당 NIM 마이크로서비스는 오는 7월 출시될 예정이다.

 

RTX용 텐서RT SDK 출시

엔비디아 RTX용 텐서RT가 독립형 SDK로 새롭게 제공된다. RTX용 텐서RT는 지난 마이크로소프트 빌드(Microsoft Build)에서 발표됐으며, 이미 새로운 윈도우 ML(Windows ML) 프레임워크의 일부로 프리뷰 버전으로 제공되고 있다.

 

기존에는 개발자가 각 GPU 클래스에 맞는 텐서RT 엔진을 미리 생성하고 패키징해야 했다. 이 과정은 GPU별 최적화가 가능하지만, 시간이 많이 소요되는 단점이 있었다. 그러나 새로운 버전의 텐서RT를 사용하면 개발자는 단 몇 초 만에 디바이스에 최적화되는 범용 텐서RT 엔진을 생성할 수 있다. 이 JIT 컴파일 방식은 소프트웨어 설치 시 또는 기능을 처음 사용할 때 백그라운드에서 실행된다.

 

새로운 SDK는 통합이 간편해지고, 이전 대비 8배 더 작아졌다. 이는 마이크로소프트의 새로운 AI 추론 백엔드인 윈도우 ML을 통해 쉽게 호출할 수 있다. 새로운 독립형 SDK는 엔비디아 개발자(NVIDIA Developer) 페이지에서 다운로드하거나, 윈도우 ML 프리뷰를 통해 테스트해볼 수 있다.

 

#엔비디아#RTX#FP8#스테이블디퓨전#

?

  1. 디지털 리얼티, AWS 새로운 ‘AWS 다이렉트 커넥트 로케이션’으로 서울 캠퍼스 선정

    - PlatformDIGITAL, 국내 데이터센터 고객들을 대상으로 AWS 다이렉트 커넥트에 대한 전용 액세스 제공 - 고객들이 하이브리드 IT 워크로드를 서울에 위치한 데이터센터에 배치하여 지연시간을 단축하고, 성능을 최적화할 수 있도록 지원 - 디지털 리얼티의 글...
    Date2023.11.07 Bynewsit Views523
    Read More
  2. 티맥스소프트, 전 제품에 통합 'SBOM' 관리 체계 적용… “AI 클라우드 시대 제품 신뢰성 제고”

    - 올해 5월부터 소프트웨어 자재명세(SBOM) 시스템 구축·고도화...자동화 및 실시간 보안 통합 관리 - 개발 프로세스에 SBOM 체계 연동시키고 코드 품질 검사 플랫폼 ‘소나큐브(SonarQube)’ 활용 - SBOM 체계와 소스코드 품질 분석 개선 통해 데브옵스 고도화...
    Date2024.08.07 Bynewsit Views523
    Read More
  3. 인텔 가우디 3, 델 AI 플랫폼에 탑재…“대규모 AI 혁신 위한 가용성 확대”

    - 델 AI 팩토리를 통해 제공되는 인텔 가우디 3 AI 가속기, 고성능, 오픈 소스 유연성 및 엔터프라이즈급 인프라를 제공하여 AI 도입 속도 향상 인텔은 델(Dell)이 델 AI 팩토리(Dell AI Factory) 최신 포트폴리오에 인텔 가우디 3 AI 가속기를 탑재한 인텔 기...
    Date2025.05.21 Bynewsit Views523
    Read More
  4. 티맥스소프트, 신한DS와 동남아 사업 확대 파트너십 체결

    - 신한금융그룹 베트남 호치민 사옥에서 동남아 사업 확대 파트너십 체결 - 양사 대표 및 관계자 배석해 포괄적 협력 모델 구체적 논의 - 신한DS 주최 고객 초청 행사에서 티맥스소프트 경쟁력, 성공사례 세션 발표 티맥스소프트가 최근 베트남 호치민에서 신...
    Date2025.06.23 Bynewsit Views523
    Read More
  5. [CES 2024] 엔비디아, 새로운 지포스 시리즈 및 AI 툴 발표…"생성형 AI 활용 확대"

    - 텐서코어 GPU, LLM, RTX PC, 워크스테이션용 툴로 수백만 명에게 생성형 AI 제공 - 새로운 지포스 RTX 슈퍼 GPU, AI 노트북 등 통해 RTX로 가속화된 AI 플랫폼 성능 제공 엔비디아가 텐서 코어 GPU, LLM, RTX PC와 워크스테이션용 툴을 통해 수백만 명에 생...
    Date2024.01.09 Bynewsit Views524
    Read More
  6. 티맥스티베로, 차세대 DB어플라이언스 ‘ZetaData7’ 공개 및 GS인증 1등급 획득

    - 대용량 데이터 처리 성능 80% 향상한 엔터프라이즈급 통합 DB 어플라이언스 - 국제 표준 기반 GS인증 1등급 획득으로 품질·신뢰성 검증 완료 티맥스티베로가 차세대 데이터베이스 어플라이언스 '제타데이터7(ZetaData7)'을 출시하고, 하이퍼스케일 데이터 환...
    Date2025.03.13 Bynewsit Views524
    Read More
  7. EDB, 자동차 전장 기업 ‘유라’에 기술지원 서비스 ‘TAM‘ 공급…“오픈소스 DBMS 포스트그레SQL의 안정적 운영“

    - EDB 전문 기술자가 기업고객의 IT 조직과 긴밀히 협력하여 포스트그레SQL(PostgreSQL)를 최대한 활용할 수 있는 맞춤형 지침 제공 - SQL 부하 발생을 기존 60%에서 20% 미만으로 감소시켜 SQL 성능 안정화 - 타사 DBMS 대비 50%이상 절감된 비용을 신규 솔루...
    Date2023.08.22 Bynewsit Views525
    Read More
  8. 쿤텍-dSPACE 코리아, SIL 기반 소프트웨어 검증 환경 구축 및 시장 발굴 MOU 체결

    - 소프트웨어 안정성 및 신뢰성 향상을 위한 기술 협력 - SIL 기반 가상 검증 플랫폼 공동 개발, 국내외 시장 발굴 목표 임베디드 가상화 전문기업 쿤텍은 오늘 글로벌 시뮬레이션 전문기업 dSPACE 코리아와 소프트웨어 검증 환경 구축 및 신규 시장 발굴을 위...
    Date2025.05.09 Bynewsit Views525
    Read More
  9. 가트너, 2025년 전체 PC 시장 31% AI PC 차지…““올해 전 세계 AI PC 출하량 104% 증가”

    - AI PC, 2026년까지 시장 점유율 50% 돌파 예상… 2029년 시장 표준 될 것 - AI PC 프로세서 선호도 차이 뚜렷… 소비자 시장 ARM, 기업 시장 윈도우 x86 - "맞춤화가 AI PC 미래… 사용자 데이터로 강력한 브랜드 충성도 구축해야" 가트너(Gartner)가 2025년 전...
    Date2025.08.29 Bynewsit Views525
    Read More
  10. 티맥스티베로, 삼성 클라우드 플랫폼에 ‘티베로7’ 등록…“공공기관 대상 클라우드 시장 공략 본격화”

    - PPP 클라우드 존 지원…공공기관에 고가용 DBMS 공급 강화 - DBMS 현대화 서비스로 클라우드 전환 가속화 기대 티맥스티베로는 RDBMS 제품 ‘티베로7(Tibero7)’이 삼성 클라우드 플랫폼(SCP)의 마켓플레이스에 등록됐다고 11일 밝혔다. 이번 등록은 최근 행정...
    Date2024.11.11 Bynewsit Views526
    Read More
목록
Board Pagination Prev 1 ... 123 124 125 126 127 128 129 130 131 132 ... 235 Next
/ 235
CLOSE