- 베이스텐·딥인프라·파이어웍스 AI·투게더 AI, 블랙웰 최적화 스택으로 효율 극대화

 

엔비디아, 블랙웰 플랫폼으로 토큰당 비용 최대 10배 절감.jpg

엔비디아가 블랙웰 플랫폼을 통해 주요 추론 서비스 제공업체들이 토큰당 비용을 최대 10배까지 낮추고 있다고 밝혔다. 오픈소스 모델과 블랙웰 기반 최적화 추론 스택을 결합해 의료·게이밍·고객 서비스 전반에서 비용 효율을 끌어올리고 있다AI 기반 상호작용은 토큰단위로 작동한다. 기업이 더 많은 추론 요청을 처리하려면 동일 인프라에서 더 많은 토큰을 생성해야 한다. 엔비디아는 인프라와 알고리즘 효율 개선이 토큰 생산성을 높이고 결과적으로 토큰당 비용을 낮추는 핵심 요인이라고 설명했다.

 

 

추론 서비스 제공업체, 블랙웰 채택 확대

베이스텐, 딥인프라, 파이어웍스 AI, 투게더 AI는 블랙웰 기반 인프라로 전환하고 있다. 저정밀 NVFP4 형식과 TensorRT-LLM, 다이나모 추론 프레임워크를 결합해 처리량을 높이고 지연 시간을 줄였다. 엔비디아는 블랙웰이 호퍼 대비 달러당 처리량을 크게 개선해 토큰당 비용을 최대 10배까지 낮출 수 있다고 밝혔다.

 토큰 생산량이 인프라 비용을 초과하면 각 토큰의 가치는 하락한다.jpg

의료: 설리.ai, 추론 비용 90% 절감

설리.ai는 의료 코드 작성과 진료 기록 자동화를 위해 베이스텐의 모델 API를 활용해 블랙웰 GPU에서 오픈소스 모델을 운영하고 있다. 기존 폐쇄형 모델 대비 추론 비용을 10, 90% 줄였고 의료 기록 생성 워크플로우의 응답 시간을 65% 개선했다. 이를 통해 의료진의 행정 업무 부담을 낮추고 3천만 분 이상의 시간을 환원했다고 설명했다.

 설리.ai는 의료진을 위해 반복적인 업무를 처리하는 AI 직원을 개발한다.jpg

게이밍: 래티튜드, 토큰당 비용 4배 절감

래티튜드는 AI 던전과 보야지 플랫폼에서 블랙웰 기반 딥인프라 추론 플랫폼을 활용한다. MoE 모델 운영 비용을 호퍼 기준 100만 토큰당 20센트에서 5센트 수준까지 낮추며 토큰당 비용을 총 4배 절감했다. 높은 정확도를 유지하면서도 실시간 응답을 제공하는 구조다.

 래티튜드는 ‘AI 던전’이라는 텍스트 기반 어드벤처 스토리 게임을 개발했다.jpg

에이전틱 챗·고객 서비스도 비용 구조 개선

센티언트는 블랙웰 기반 파이어웍스 AI 추론 플랫폼을 적용해 호퍼 대비 25~50% 수준의 비용 효율 개선을 달성했다. 대규모 동시 사용자 환경에서도 낮은 지연을 유지했다.

 센티언트 챗은 복잡한 멀티 에이전트 워크플로우를 오케스트레이션하고, 커뮤니티에서 개발된 12개 이상의 특화된 AI 에이전트를 통합한다.jpg

데카곤은 투게더 AI와 협력해 블랙웰 GPU 기반 멀티모델 음성 스택을 운영한다. 추측 디코딩과 캐싱, 자동 확장 최적화를 통해 질의당 비용을 기존 폐쇄형 모델 대비 6배 절감하고 400ms 이하 응답을 구현했다.

 데카곤은 고객 지원을 위한 AI 에이전트를 구축하고 있으며, 음성 채널이 가장 까다로운 채널이다.jpg

GB200 NVL72·루빈으로 확장

엔비디아는 GB200 NVL72 시스템이 추론용 MoE 모델에서 호퍼 대비 토큰당 비용을 최대 10배까지 낮출 수 있다고 밝혔다. 이어 루빈 플랫폼은 6개 신규 칩을 단일 AI 슈퍼컴퓨터로 통합해 블랙웰 대비 최대 10배 성능 향상과 10배 비용 절감을 제공한다고 설명했다.

 

#엔비디아 #블랙웰 #GB200NVL72 #루빈 #AI추론 #토큰당비용 #TensorRTLLM #토크노믹스

 
?

  1. 티맥스소프트, 제4회 ‘상용·AI SW 마켓 페어’ 참가…인터페이스 플랫폼 4종 전시

    - 애니링크·애니API·애니EIMS·애니Sim으로 공공 AX 환경 DB-AI 연계 대응 티맥스소프트가 ‘상용·AI SW 마켓 페어’에서 인터페이스 플랫폼 4종을 전시하며 클라우드·온프레미스·AI 플랫폼이 함께 운영되는 공공 IT 환경의 시스템 연계 수요 증가에 대응한다. 공...
    Date2026.03.27 Bynewsit Views34
    Read More
  2. 딥엘, DeepL Voice 벤치마크 공개…실시간 음성 번역 정확도·자막 안정성 1위

    - 언어 전문가 96% 선택, 구글 미트·팀즈·줌 대비 번역 오류율 최대 76% 감소 딥엘이 실시간 음성 번역 솔루션 DeepL Voice 벤치마크 결과를 공개했다. 슬레이터(Slator)가 수행한 블라인드 테스트에서 번역 품질과 자막 안정성 평가 모두 주요 협업 플랫폼 대...
    Date2026.03.26 Bynewsit Views49
    Read More
  3. 헥사곤, SIMTOS 2026 참가…정밀 측정·AI 기반 제조 솔루션 공개

    - 3차원 측정기·대형 구조물 자동화 검사·AI CAM 기술 전시, 데이터 기반 제조 품질 관리 구조 제시 헥사곤이 SIMTOS 2026에서 정밀 측정 장비와 자동화 검사 시스템, AI 기반 CAM 소프트웨어를 공개한다. 측정 데이터와 제조 공정을 연결하는 제조 인텔리전스...
    Date2026.03.26 Bynewsit Views31
    Read More
  4. 세일포인트, AWS 협력 에이전틱 AI 보안 확장…통합 아이덴티티 거버넌스 레이어 구축

    - 인간·머신·AI 에이전트 통합 관리 구조 적용, 지속적 권한 제어 기반 보안 체계 확장 세일포인트가 AWS와 전략적 협력 계약(SCA)을 체결하고 에이전틱 AI 환경을 위한 통합 아이덴티티 거버넌스 레이어 구축을 추진한다. AWS 환경에서 인간과 머신, AI 에이...
    Date2026.03.26 Bynewsit Views36
    Read More
  5. 옥타브, IDC 마켓스케이프 EAM 리더 선정… AI 기반 자산 생애주기 관리 구조 평가

    - 자산 계획·정비·운영 데이터 연결하는 EAM 플랫폼 역량 반영 옥타브가 IDC가 발표한 ‘IDC 마켓스케이프: 2025-2026년 전 세계 AI 기반 자산집약 산업용 엔터프라이즈 자산 관리(EAM) 애플리케이션 제공업체 평가’에서 리더로 선정됐다. 자산 계획부터 유지보...
    Date2026.03.25 Bynewsit Views25
    Read More
  6. 한국퀀텀컴퓨팅, 에어큐브와 PQC 기반 패스워드리스 인증 PoC 추진

    - 양자내성암호와 IAM 결합해 NPE 키 관리 구조 검증 한국퀀텀컴퓨팅(KQC)이 에어큐브와 PQC(Post-Quantum Cryptography) 기반 패스워드리스 인증 모델 공동 검증에 나선다. 양자내성암호와 통합 인증·접근관리(IAM)를 결합해 비밀번호 없이 동작하는 인증 구...
    Date2026.03.25 Bynewsit Views27
    Read More
  7. 넷앱, NVIDIA 기반 AI Data Engine 공개…메타데이터 중심 AI 데이터 파이프라인 구조 제시

    - 글로벌 메타데이터 카탈로그 기반 데이터 탐색·거버넌스 통합, 에이전틱 AI 워크플로우 지원 넷앱이 NVIDIA AI Data Platform 레퍼런스 아키텍처와 결합한 AI 데이터 플랫폼 ‘NetApp AI Data Engine(AIDE)’을 공개했다. 글로벌 메타데이터 카탈로그와 시맨틱...
    Date2026.03.24 Bynewsit Views41
    Read More
  8. 스트라타시스, TrueDent CE Class IIa 획득…3D 프린팅 의치 적용 범위 확대

    - 모놀리식 다색 의치·임시 수복 적용, 유럽 디지털 보철 워크플로우 확장 스트라타시스 트루덴트(TrueDent) 레진이 CE Class IIa 의료기기 인증을 획득하며 3D 프린팅 의치 적용 범위를 확장했다. 폴리크로매틱 모놀리식 구조 기반 완전 의치와 부분 의치, 크...
    Date2026.03.24 Bynewsit Views48
    Read More
  9. EDB, EPAS 네이티브 TDE로 WAL·임시파일까지 암호화

    - 커널 I/O 레벨 통합 방식으로 인덱스·임시파일·WAL까지 보호 범위 확장 EDB가 PostgreSQL 커널 레벨에 통합된 네이티브 TDE(Transparent Data Encryption)를 적용한 EPAS를 공개하며 데이터 저장 전 영역 암호화 구조를 제시했다. 인덱스와 임시 파일, WAL(W...
    Date2026.03.23 Bynewsit Views30
    Read More
  10. [GTC 2026] 레노버, AI 추론부터 AI 팩토리까지 확장…하이브리드 AI 전주기 실행 구조 공개

    - 워크스테이션·엣지·데이터센터·AI 팩토리로 이어지는 추론 중심 인프라 구성 레노버가 GTC 2026에서 AI 추론부터 AI 팩토리까지 이어지는 하이브리드 AI 실행 구조를 공개했다. 온프레미스와 클라우드를 결합해 추론 워크로드를 분산 처리하고 토큰 처리 효...
    Date2026.03.20 Bynewsit Views57
    Read More
목록
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 236 Next
/ 236
CLOSE