- 베이스텐·딥인프라·파이어웍스 AI·투게더 AI, 블랙웰 최적화 스택으로 효율 극대화

 

엔비디아, 블랙웰 플랫폼으로 토큰당 비용 최대 10배 절감.jpg

엔비디아가 블랙웰 플랫폼을 통해 주요 추론 서비스 제공업체들이 토큰당 비용을 최대 10배까지 낮추고 있다고 밝혔다. 오픈소스 모델과 블랙웰 기반 최적화 추론 스택을 결합해 의료·게이밍·고객 서비스 전반에서 비용 효율을 끌어올리고 있다AI 기반 상호작용은 토큰단위로 작동한다. 기업이 더 많은 추론 요청을 처리하려면 동일 인프라에서 더 많은 토큰을 생성해야 한다. 엔비디아는 인프라와 알고리즘 효율 개선이 토큰 생산성을 높이고 결과적으로 토큰당 비용을 낮추는 핵심 요인이라고 설명했다.

 

 

추론 서비스 제공업체, 블랙웰 채택 확대

베이스텐, 딥인프라, 파이어웍스 AI, 투게더 AI는 블랙웰 기반 인프라로 전환하고 있다. 저정밀 NVFP4 형식과 TensorRT-LLM, 다이나모 추론 프레임워크를 결합해 처리량을 높이고 지연 시간을 줄였다. 엔비디아는 블랙웰이 호퍼 대비 달러당 처리량을 크게 개선해 토큰당 비용을 최대 10배까지 낮출 수 있다고 밝혔다.

 토큰 생산량이 인프라 비용을 초과하면 각 토큰의 가치는 하락한다.jpg

의료: 설리.ai, 추론 비용 90% 절감

설리.ai는 의료 코드 작성과 진료 기록 자동화를 위해 베이스텐의 모델 API를 활용해 블랙웰 GPU에서 오픈소스 모델을 운영하고 있다. 기존 폐쇄형 모델 대비 추론 비용을 10, 90% 줄였고 의료 기록 생성 워크플로우의 응답 시간을 65% 개선했다. 이를 통해 의료진의 행정 업무 부담을 낮추고 3천만 분 이상의 시간을 환원했다고 설명했다.

 설리.ai는 의료진을 위해 반복적인 업무를 처리하는 AI 직원을 개발한다.jpg

게이밍: 래티튜드, 토큰당 비용 4배 절감

래티튜드는 AI 던전과 보야지 플랫폼에서 블랙웰 기반 딥인프라 추론 플랫폼을 활용한다. MoE 모델 운영 비용을 호퍼 기준 100만 토큰당 20센트에서 5센트 수준까지 낮추며 토큰당 비용을 총 4배 절감했다. 높은 정확도를 유지하면서도 실시간 응답을 제공하는 구조다.

 래티튜드는 ‘AI 던전’이라는 텍스트 기반 어드벤처 스토리 게임을 개발했다.jpg

에이전틱 챗·고객 서비스도 비용 구조 개선

센티언트는 블랙웰 기반 파이어웍스 AI 추론 플랫폼을 적용해 호퍼 대비 25~50% 수준의 비용 효율 개선을 달성했다. 대규모 동시 사용자 환경에서도 낮은 지연을 유지했다.

 센티언트 챗은 복잡한 멀티 에이전트 워크플로우를 오케스트레이션하고, 커뮤니티에서 개발된 12개 이상의 특화된 AI 에이전트를 통합한다.jpg

데카곤은 투게더 AI와 협력해 블랙웰 GPU 기반 멀티모델 음성 스택을 운영한다. 추측 디코딩과 캐싱, 자동 확장 최적화를 통해 질의당 비용을 기존 폐쇄형 모델 대비 6배 절감하고 400ms 이하 응답을 구현했다.

 데카곤은 고객 지원을 위한 AI 에이전트를 구축하고 있으며, 음성 채널이 가장 까다로운 채널이다.jpg

GB200 NVL72·루빈으로 확장

엔비디아는 GB200 NVL72 시스템이 추론용 MoE 모델에서 호퍼 대비 토큰당 비용을 최대 10배까지 낮출 수 있다고 밝혔다. 이어 루빈 플랫폼은 6개 신규 칩을 단일 AI 슈퍼컴퓨터로 통합해 블랙웰 대비 최대 10배 성능 향상과 10배 비용 절감을 제공한다고 설명했다.

 

#엔비디아 #블랙웰 #GB200NVL72 #루빈 #AI추론 #토큰당비용 #TensorRTLLM #토크노믹스

 
?

List of Articles
번호 분류 제목 글쓴이 날짜 조회 수
2285 솔트웨어, AWS 컨테이너 운영 전략 세미나 개최…ECS·EKS 운영 모델 소개   - ECS·EKS 기반 컨테이너 도입 및 운영 전략 공유 솔트웨어가 아마존웹서비스 코리아 본사에서 AWS 컨테이너 운영 전략을 공유하는 세미나 ‘컨테이너 데이(Contai... file newsit 2026.03.11 24
2284 [MWC 2026] 윈드리버, 보다폰과 AI-RAN 운영 자동화 솔루션 공개…오픈랜 운영 지능화 제시 - AI 기반 네트워크 분석으로 이상 탐지 시간 수 시간→수 분 단축 윈드리버가 보다폰과 협력해 오픈랜(Open RAN) 네트워크 운영을 위한 AI-RAN 기반 운영 자동화 ... file newsit 2026.03.11 19
2283 SIMTOS 2026, 4월 13일 개막…AI 자율제조 기반 글로벌 제조 플랫폼 제시 - 35개국 1,300개 기업 참가, 절삭·로봇·디지털 제조 전 공정 기술 공개 서울국제생산제조기술전(SIMTOS 2026)이 오는 4월 13일부터 17일까지 KINTEX에서 열린다.... file newsit 2026.03.10 28
2282 엠클라우드브리지, ‘Ai 365 데이터 에이전트’ 공개…“보는 BI에서 대화형 AI+BI로” - 자연어 분석·설명형 인사이트·업무 자동화 결합한 차세대 데이터 분석 환경 엠클라우드브리지가 대화형 데이터 분석 에이전트 ‘Ai 365 데이터 에이전트’를 공개... file newsit 2026.03.10 31
2281 슈나이더, ESG 프로젝트 ‘SSI 5년’ 마무리…탄소 감축 성과 가시화 - 고객 탄소 감축 8억6200만 톤…공급망 CO₂ 배출 56% 감소 슈나이더가 글로벌 ESG 프로그램 ‘Schneider Sustainability Impact(SSI)’ 5년 프로젝트를 마무리하고 ... file newsit 2026.03.10 29
2280 알리바바 클라우드, 옴디아 ‘에이전틱 AI 개발 플랫폼’ 리더 선정 - 컨텍스트 엔지니어링·멀티 에이전트 등 5개 핵심 항목 최고 등급 알리바바 클라우드가 시장조사기관 옴디아가 발표한 ‘마켓 레이더: 2026 아시아·오세아니아 에... file newsit 2026.03.10 23
2279 매스웍스, ‘매트랩 엑스포 2026 코리아’ 개최…AI 기반 엔지니어링 워크플로우 공개 - 4월 7일 코엑스서 국내 최대 매스웍스 기술 컨퍼런스 개최 매스웍스가 4월 7일 서울 코엑스에서 ‘매트랩 엑스포 2026 코리아’를 개최하고 AI 기반 엔지니어링 ... file newsit 2026.03.10 24
2278 [AW2026] 슈나이더 일렉트릭 코리아, AI 기반 통합 자동화 전략 공개 - 개방형 플랫폼 기반 산업 데이터 통합·분석 구조 제시 - 디지털 트윈·AI 데이터 분석으로 자율제조 경쟁력 강화 슈나이더 일렉트릭 코리아가 ‘2026 스마트공장·... file newsit 2026.03.05 47
2277 SAP, FC 바이에른 뮌헨 클라우드 전환… 950만 팬 데이터 통합 운영 - 온프레미스 ERP 클라우드 전환 통해 AI 기반 운영 체계 구축 - 950만 팬 데이터·2만5000 제품 데이터 통합 관리 SAP가 독일 프로축구 구단 FC 바이에른 뮌헨(Ba... file newsit 2026.03.05 68
2276 벡터, 소프트웨어 타이밍 분석 기술 ‘록스탯’ 인수… 안전 필수 시스템 검증 강화 - VectorCAST 툴체인에 통합해 WCET 추정·타이밍 분석 기능 확대 - SDV 등 소프트웨어 정의 시스템에서 요구되는 타이밍 안전 대응 차량 네트워크와 임베디드 시... file newsit 2026.03.05 46
목록
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 233 Next
/ 233
CLOSE