- 베이스텐·딥인프라·파이어웍스 AI·투게더 AI, 블랙웰 최적화 스택으로 효율 극대화

 

엔비디아, 블랙웰 플랫폼으로 토큰당 비용 최대 10배 절감.jpg

엔비디아가 블랙웰 플랫폼을 통해 주요 추론 서비스 제공업체들이 토큰당 비용을 최대 10배까지 낮추고 있다고 밝혔다. 오픈소스 모델과 블랙웰 기반 최적화 추론 스택을 결합해 의료·게이밍·고객 서비스 전반에서 비용 효율을 끌어올리고 있다AI 기반 상호작용은 토큰단위로 작동한다. 기업이 더 많은 추론 요청을 처리하려면 동일 인프라에서 더 많은 토큰을 생성해야 한다. 엔비디아는 인프라와 알고리즘 효율 개선이 토큰 생산성을 높이고 결과적으로 토큰당 비용을 낮추는 핵심 요인이라고 설명했다.

 

 

추론 서비스 제공업체, 블랙웰 채택 확대

베이스텐, 딥인프라, 파이어웍스 AI, 투게더 AI는 블랙웰 기반 인프라로 전환하고 있다. 저정밀 NVFP4 형식과 TensorRT-LLM, 다이나모 추론 프레임워크를 결합해 처리량을 높이고 지연 시간을 줄였다. 엔비디아는 블랙웰이 호퍼 대비 달러당 처리량을 크게 개선해 토큰당 비용을 최대 10배까지 낮출 수 있다고 밝혔다.

 토큰 생산량이 인프라 비용을 초과하면 각 토큰의 가치는 하락한다.jpg

의료: 설리.ai, 추론 비용 90% 절감

설리.ai는 의료 코드 작성과 진료 기록 자동화를 위해 베이스텐의 모델 API를 활용해 블랙웰 GPU에서 오픈소스 모델을 운영하고 있다. 기존 폐쇄형 모델 대비 추론 비용을 10, 90% 줄였고 의료 기록 생성 워크플로우의 응답 시간을 65% 개선했다. 이를 통해 의료진의 행정 업무 부담을 낮추고 3천만 분 이상의 시간을 환원했다고 설명했다.

 설리.ai는 의료진을 위해 반복적인 업무를 처리하는 AI 직원을 개발한다.jpg

게이밍: 래티튜드, 토큰당 비용 4배 절감

래티튜드는 AI 던전과 보야지 플랫폼에서 블랙웰 기반 딥인프라 추론 플랫폼을 활용한다. MoE 모델 운영 비용을 호퍼 기준 100만 토큰당 20센트에서 5센트 수준까지 낮추며 토큰당 비용을 총 4배 절감했다. 높은 정확도를 유지하면서도 실시간 응답을 제공하는 구조다.

 래티튜드는 ‘AI 던전’이라는 텍스트 기반 어드벤처 스토리 게임을 개발했다.jpg

에이전틱 챗·고객 서비스도 비용 구조 개선

센티언트는 블랙웰 기반 파이어웍스 AI 추론 플랫폼을 적용해 호퍼 대비 25~50% 수준의 비용 효율 개선을 달성했다. 대규모 동시 사용자 환경에서도 낮은 지연을 유지했다.

 센티언트 챗은 복잡한 멀티 에이전트 워크플로우를 오케스트레이션하고, 커뮤니티에서 개발된 12개 이상의 특화된 AI 에이전트를 통합한다.jpg

데카곤은 투게더 AI와 협력해 블랙웰 GPU 기반 멀티모델 음성 스택을 운영한다. 추측 디코딩과 캐싱, 자동 확장 최적화를 통해 질의당 비용을 기존 폐쇄형 모델 대비 6배 절감하고 400ms 이하 응답을 구현했다.

 데카곤은 고객 지원을 위한 AI 에이전트를 구축하고 있으며, 음성 채널이 가장 까다로운 채널이다.jpg

GB200 NVL72·루빈으로 확장

엔비디아는 GB200 NVL72 시스템이 추론용 MoE 모델에서 호퍼 대비 토큰당 비용을 최대 10배까지 낮출 수 있다고 밝혔다. 이어 루빈 플랫폼은 6개 신규 칩을 단일 AI 슈퍼컴퓨터로 통합해 블랙웰 대비 최대 10배 성능 향상과 10배 비용 절감을 제공한다고 설명했다.

 

#엔비디아 #블랙웰 #GB200NVL72 #루빈 #AI추론 #토큰당비용 #TensorRTLLM #토크노믹스

 
?

  1. 알리바바, Qwen3.6-Plus·Qwen3.5-Omni 공개…에이전틱 실행과 옴니모달 처리 동시 확장

    - 에이전틱 코딩·멀티모달 추론·음성·영상 통합 처리 기반 AI 실행 범위 확대 알리바바(Alibaba)가 에이전틱 실행 기반 코딩 모델 Qwen3.6-Plus와 텍스트·음성·이미지·영상 데이터를 통합 처리하는 옴니모달 모델 Qwen3.5-Omni를 공개했다. 복합 작업을 단계적...
    Date2026.04.06 Bynewsit Views87
    Read More
  2. 한국레노버, 산업용 AI 엣지 컴퓨팅 ‘씽크엣지’ 2종 출시…온디바이스 처리로 지연 최소화

    - 씽크엣지 SE30n·SE60n, 최대 97 TOPS 기반 실시간 산업 데이터 분석 지원 한국레노버가 산업 환경에 최적화된 AI 엣지 컴퓨팅 솔루션 씽크엣지(ThinkEdge) 2종을 출시했다. 온디바이스 AI 기반 데이터 처리를 통해 클라우드 의존도를 낮추고 데이터가 생성되...
    Date2026.04.06 Bynewsit Views53
    Read More
  3. 사이냅소프트, 문서 AI·RAG 기반 도서관 AX 전환 지원

    - 문서 AI 4종으로 학술 데이터 지식화 및 검색 자동화 기능 공개 사이냅소프트가 제24차 한국학술정보협의회 콘퍼런스에서 문서 AI(Document AI) 기반 도서관 업무 자동화 솔루션을 공개했다. 학술 데이터를 지식 자산으로 변환하고 검색 증강 생성(RAG) 기반...
    Date2026.04.03 Bynewsit Views55
    Read More
  4.   EDB, 엔비디아 GPU 결합…Postgres 분석 최대 100배 가속

    - Apache Spark용 NVIDIA cuDF 통합 확대, 3TB 이상 데이터 분석 50~100배 처리 향상 EDB가 엔비디아 GPU 가속 기술을 포스트그레스(Postgres) AI 플랫폼에 결합하며 에이전틱 AI 환경에서 요구되는 대규모 데이터 분석 처리 속도를 최대 100배 높였다. 아파치...
    Date2026.04.03 Bynewsit Views66
    Read More
  5. 유아이패스, 구매-지급(P2P) 에이전틱 AI 솔루션 공개… 재무 워크플로우 자동화 적용

    - AI 에이전트 기반 오케스트레이션… 구매 승인·청구서 검증·예외 처리 흐름 자동화 유아이패스가 구매부터 지급까지 이어지는 P2P(Purchase-to-Pay) 전 과정에 에이전틱 AI를 적용한 자동화 솔루션을 공개했다. ERP와 협업 시스템 전반에 AI 에이전트 실행 계...
    Date2026.04.02 Bynewsit Views54
    Read More
  6. 사이냅소프트, OCR IX CPU 출시… GPU 없이 AI OCR 실행 지원

    - 양자화 적용 모델 경량화…기존 서버에서 문서 인식 자동화 운영 사이냅소프트가 GPU 없이 실행 가능한 AI OCR 솔루션 ‘사이냅 OCR IX’ CPU 버전을 공개했다. 기존 온프레미스 서버 환경에서 문서 인식 자동화를 수행하며, 양자화 기반 모델 경량화를 통해 연...
    Date2026.04.02 Bynewsit Views49
    Read More
  7. AIWORKX, 생성형 AI 기반 비대면 기업카드 심사 자동화 프로젝트 수주

    - OCR·LLM·RAG 적용 신청·심사·발급 전 과정 자동화 AIWORKX가 국내 주요 카드사의 비대면 기업카드 신청 및 심사 프로세스 고도화 프로젝트를 수주했다. 비대면 기업카드 신청 수요가 증가하고 있지만 기존 심사와 발급 절차는 대면 중심 업무 구조를 유지하...
    Date2026.04.02 Bynewsit Views70
    Read More
  8. 데이터브릭스, 레이크하우스 기반 엔터프라이즈 AI 확산… 국내 비즈니스 100% 성장

    - AI Days Seoul 개최… 3년간 데이터·AI 전문 인력 1만 명 양성 추진 데이터브릭스가 오프라인 컨퍼런스 ‘AI Days Seoul’을 개최하고 지난 회계연도 국내 비즈니스가 전년 대비 100% 이상 성장했다고 밝혔다. 기업들의 생성형 AI 도입 확대와 데이터 통합 수요...
    Date2026.04.01 Bynewsit Views52
    Read More
  9. 티맥스소프트, 제우스 11 국내 최초 자카르타 EE 11 인증 획득

    - 자바 21 기반 차세대 WAS… AI·클라우드 환경 대응 플랫폼 강화 티맥스소프트가 애플리케이션 서버 ‘제우스 11(JEUS 11)’으로 국내 최초 자카르타 EE 11 인증을 획득했다. 자바 21 기반 기술을 적용해 AI·클라우드 환경에서 요구되는 엔터프라이즈 애플리케이...
    Date2026.04.01 Bynewsit Views56
    Read More
  10. 레노버, 데이비드 베컴과 글로벌 파트너십 체결… AI 스포츠 혁신 협력 확대

    - 2026 FIFA 월드컵 기술 파트너십 연계… 경기력·팬 경험 고도화 추진 레노버가 글로벌 스포츠 영향력을 보유한 데이비드 베컴(David Beckham)과 파트너십을 체결하고 AI 기반 경기 데이터 분석 및 디지털 팬 경험 기술 협력을 확대한다. 2026 FIFA 월드컵 공...
    Date2026.04.01 Bynewsit Views48
    Read More
목록
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 238 Next
/ 238
CLOSE