알리바바 클라우드, 엔드투엔드 멀티모달 AI 모델 ‘Qwen2.5-Omni-7B’ 공개.PNG

알리바바 클라우드가 자사 큐원(Qwen) 시리즈의 통합 엔드투엔드 멀티모달 모델인 ‘Qwen2.5-Omni-7B’를 새롭게 공개했다.

 

이번 모델은 종합적인 멀티모달 인식을 위해 설계되어, 텍스트, 이미지, 음성, 영상 등 다양한 형태의 입력 정보를 처리하고 실시간 텍스트 및 자연스러운 음성 응답을 지원함으로써 모바일 기기와 노트북과 같은 엣지 디바이스에 최적화된 멀티모달 AI 기술의 새로운 표준을 제시한다.

 

Qwen2.5-Omni-7B7B(70) 파라미터의 컴팩트한 설계에도 불구하고 성능 저하 없이 강력한 멀티모달 처리 능력을 제공한다. 이러한 고유한 조합은 특히 지능형 음성 애플리케이션과 같이 실질적인 가치를 제공하는 민첩하고 비용 효율적인 AI 에이전트 개발에 적합하다. 예를 들어 이 모델은 시각 장애인이 실시간 음성 설명을 통해 주변 환경을 인식하고 탐색할 수 있도록 지원하거나, 동영상 속 재료를 분석해 단계별 요리 가이드를 제공하는 데 활용될 수 있다. 또한 고객의 니즈를 정확히 이해하는 지능형 고객 응대 시스템 구현에도 적용 가능하다.

 

Qwen2.5-Omni-7B는 현재 허깅페이스(Hugging Face)와 깃허브(GitHub)를 통해 오픈소스로 공개되었으며, 큐원 챗(Qwen Chat)과 알리바바 클라우드 오픈소스 커뮤니티인 모델스코프(ModelScope)를 통해서도 접근할 수 있다. 알리바바 클라우드는 지난 몇 년간 총 200개 이상의 생성형 AI 모델을 오픈소스로 공개한 바 있다.

 

혁신적 아키텍처 기반의 고성능 멀티모달 처리

Qwen2.5-Omni-7B는 모든 모달리티 중에서 뛰어난 성능을 발휘하며, 유사한 규모의 단일 모달리티 특화 모델과 비교해도 손색이 없다. 특히 실시간 음성 상호작용, 자연스럽고 안정적인 음성 생성, 엔드투엔드 음성 명령어 이행 등에서 업계 최고 수준의 벤치마크를 제시했다.

해당 모델의 효율성과 고성능은 혁신적인 아키텍처에서 비롯된다. 대표적으로 텍스트 생성(Thinker)과 음성 합성(Talker)을 분리하여 서로 다른 모달 간의 간섭을 최소화하는 ‘Thinker-Talker 아키텍처’, 일관된 콘텐츠 생성을 위해 비디오 입력과 오디오를 보다 잘 동기화하는 위치 임베딩 기술 TMRoPE(Time-aligned Multimodal RoPE), 그리고 끊김 없는 음성 상호작용을 위한 저지연 오디오 응답을 가능하게 하는 블록와이즈 스트리밍 처리 등이 적용되었다.

 

경량 모델임에도 불구하고 탁월한 성능

Qwen2.5-Omni-7B는 이미지-텍스트, 영상-텍스트, 영상-음성, 음성-텍스트, 텍스트 데이터를 포함한 방대하고 다양한 데이터셋을 기반으로 사전 학습되어 다양한 작업에서 강력한 성능을 보장한다.

 알리바바 클라우드 엔드투엔드 멀티모달 AI 모델 Qwen2.5-Omni-7B 공개.jpg

혁신적인 아키텍처와 고품질 사전학습 데이터셋을 바탕으로 이 모델은 음성 명령을 정확히 이해하고 수행하는 데 뛰어난 성능을 보이며, 텍스트 입력만 사용하는 경우와 유사한 수준의 성능을 달성한다. 특히 시각, 청각(acoustic), 텍스트 정보를 통합적으로 인식, 해석, 추론하는 능력을 평가하는 OmniBench 벤치마크와 같이 다양한 모달리티를 통합적으로 처리해야 하는 작업에서도 Qwen2.5-Omni는 최고 수준의 성능을 기록했다.

 

Qwen2.5-Omni-7B는 인컨텍스트 러닝(ICL)을 통해 상황과 맥락에 따른 음성 이해 및 생성 능력을 향상시켰다. , 강화학습(RL) 기반 최적화를 통해 생성 안정성에서 상당한 향상을 보였으며, 음성 응답 시 주의력 분산, 발음 오류, 부자연스러운 정지 현상 등이 현저히 감소되었다.

 

한편, 알리바바 클라우드는 지난해 9Qwen2.5를 처음 공개한 데 이어, 올해 1월에는 ‘Qwen2.5-Max’를 출시해 Chatbot Arena에서 7위를 기록, 대등한 주요 상용 모델들 대비 뛰어난 성능을 입증한 바 있다. 또한, 시각 이해와 장문 입력 처리를 위한 모델인 ‘Qwen2.5-VL’‘Qwen2.5-1M’ 등을 오픈소스로 공개했다.

 

#알리바바클라우드#Qwen#멀티모달#AI#

 
?

  1. 알리바바 클라우드, 엔드투엔드 멀티모달 AI 모델 ‘Qwen2.5-Omni-7B’ 공개

    알리바바 클라우드가 자사 큐원(Qwen) 시리즈의 통합 엔드투엔드 멀티모달 모델인 ‘Qwen2.5-Omni-7B’를 새롭게 공개했다. 이번 모델은 종합적인 멀티모달 인식을 위해 설계되어, 텍스트, 이미지, 음성, 영상 등 다양한 형태의 입력 정보를 처리하고 실시간 텍...
    Date2025.03.31 Bynewsit Views674
    Read More
  2. 캐논코리아, 데스크탑 대형 잉크젯 프린터 TC-21·복합기 TC-21M 2종 출시…“다양한 비즈니스 환경지원”

    - TC-21/TC-21M, 틸트식 조작 패널 채용해 전작 대비 사용자 편의성 및 설치성 확대 - 다양한 용지 대응성, 뛰어난 인쇄 품질, 친환경적인 특징 갖춰 - TC-21M, A4 사이즈의 평판 스캐너 탑재로 인쇄 편의성 강화 캐논코리아는 다양한 용지 사이즈에 대응하는 ...
    Date2025.03.31 Bynewsit Views147
    Read More
  3. TI, 업계 최초로 ‘기능 절연 모듈레이터’ 제품군 출시

    - TI의 새로운 아날로그 제품, 최고의 해상도로 전류와 전압을 정확하게 측정하여 로봇이 정밀하고 복잡한 작업을 수행할 수 있도록 지원 텍사스 인스트루먼트(TI)는 오늘 업계 최초의 기능 절연(functionally isolated) 모듈레이터를 출시하고, 엔지니어들이 ...
    Date2025.03.31 Bynewsit Views434
    Read More
  4. 안랩블록체인컴퍼니, 그라운드엑스와 블록체인 지갑 서비스 ‘클립(Klip)’ 사업 양수도 계약 체결

    -‘클립’ 및 ‘KAS’ 서비스와 함께, 기술 인프라, 고객 지원 체계 등 관련 사업 일체 양수 -안랩블록체인컴퍼니, 기존 사용자들의 경험을 최우선으로 한 지갑 서비스 통합(‘ABC 월렛’+ ‘클립’) 추진 안랩의 블록체인 자회사 안랩블록체인컴퍼니(ABC)는 오늘 블록...
    Date2025.03.31 Bynewsit Views347
    Read More
  5. 가민, 프리미엄 건강∙운동 데이터 앱 ‘가민 커넥트 플러스’ 국내 출시

    - ‘가민 커넥트’ 기본 기능 확장한 프리미엄 플랜 - AI 기반 인사이트 및 맞춤형 훈련으로 건강 목표 달성 - 라이브 액티비티, 퍼포먼스 대시보드 등 신규 기능 및 업데이트 공개 가민이 ‘가민 커넥트 플러스(Garmin Connect+)’를 국내 공식 출시했다고 밝혔다...
    Date2025.03.28 Bynewsit Views169
    Read More
  6. 캐논코리아, KLPGA 박준석 기자 사진전 '792만 번의 스윙, 792만 번의 기록, 1/792만 초의 셔터' 오프닝 행사 성료

    - 4월 6일(일)까지 캐논갤러리에서 KLPGA 22년 역사를 담은 박준석 기자의 사진전 개최 - 박준석 기자가 22년간 사용한 캐논 카메라 및 렌즈 전시존, '파워샷 골프' 체험존 마련 캐논코리아는 캐논갤러리에서 KLPGA 소속 박준석 기자의 사진전 '792만 번의 스...
    Date2025.03.28 Bynewsit Views139
    Read More
  7. ST, 서보 드라이버 레퍼런스 ‘EVLSERVO1’ 출시…“고출력 모터 제어 애플리케이션 지원”

    - 산업 및 가전제품에 적합한 FOC, 6단계, 첨단 위치 및 토크 제어 전략 지원 ST마이크로일렉트로닉스는 고출력 모터 제어 애플리케이션에 맞춰 특수 설계된 초소형 솔루션을 제공하는 EVLSERVO1 서보 드라이버 레퍼런스 디자인을 출시하고, 설계자가 성능 저...
    Date2025.03.28 Bynewsit Views384
    Read More
  8. 코닝, ‘고릴라 글래스 세라믹’ 출시…“견고한 커버 소재 제품군 확대”

    - 세라믹 커버 소재로 거친 표면에서도 개선된 낙하 내구성 구현 코닝은 투명한 혁신적인 글래스 세라믹 소재로 다양한 모바일 기기에서 뛰어난 내구성을 구현할 코닝 고릴라 글래스 세라믹(Gorilla Glass Ceramic)을 출시한다고 오늘 발표했다. 코닝의 고릴라...
    Date2025.03.28 Bynewsit Views454
    Read More
  9. TI, 데이터 센터용 전력 관리 칩 「TPS1685」 출시…“전력 밀도 및 효율성을 극대화”

    - 업계 최초로 전력 경로 보호 기능이 내장된 48V 통합 핫스왑 eFuse가 데이터 센터 설계를 간소화하고 6kW 이상의 전력 수준에 도달할 수 있도록 지원 - TI 질화갈륨(GaN)과 고성능 게이트 드라이버, 고급 보호 기능을 통합한 새로운 GaN 전력계, 업계 표준 ‘...
    Date2025.03.27 Bynewsit Views274
    Read More
  10. 안랩, 베트남 현지 보안 담당자 대상 ‘안랩 사이버 시큐리티 세미나 2025’ 성료

    - 베트남 파트너 ‘에어키 비나(AirQuay Vina)’와 현지 기업 및 보안 담당자 80명 대상 보안 세미나 개최 안랩은 3월 26일 베트남 현지 파트너 ‘에어키 비나(AirQuay Vina)’와 함께 베트남 소재 기업 및 보안 담당자 80명을 대상으로 ‘안랩 사이버 시큐리티 세...
    Date2025.03.27 Bynewsit Views124
    Read More
  11. 일본우주항공연구개발기구, 스파이런트의 ‘Lunar PNT 시뮬레이션’ 도입…“달 탐사 계획 지원”

    - PNT X 솔루션, 달에서 구동되기 전에 실험실 환경에서 달의 PNT 서비스 시뮬레이션으로 우주 탐사 역량 강화 지원 스파이런트는 오늘 일본우주항공연구개발기구(JAXA)가 달의 정확한 PNT(위치, 항법, 시각) 시뮬레이션을 위해 스파이런트의 ‘PNT X‘를 도입했...
    Date2025.03.27 Bynewsit Views459
    Read More
  12. 델, 2025년 AI 기반 클라이언트 신제품 공개…“새로운 통합 브랜딩 적용”

    - AI 시대를 맞아 업무 효율과 생산성을 혁신시킬 수 있는 AI PC∙업무용 모니터 등 클라이언트 포트폴리오 전시 - 엔비디아 그레이스 블랙웰 등 최신 AI 기술을 기반으로 클라이언트 솔루션 포트폴리오 확장, 개별 사용자 환경에서부터 대규모 데이터 센터 구...
    Date2025.03.27 Bynewsit Views339
    Read More
  13. 사이냅소프트 ‘문서뷰어 2025’, 대화형 AI 에이전트 구축의 새로운 동반자로 자리매김

    - 대화형 AI 에이전트 구축에 문서뷰어 활용니즈 증가 - AI 에이전트와의 완벽한 조화, 사이냅 문서 뷰어 사이냅소프트는 최근 출시한 ‘사이냅 문서뷰어 2025’가 대화형 AI 에이전트 구축의 필수적인 도구로 자리 잡으며 많은 기업과 기관의 주목을 받고 있다...
    Date2025.03.26 Bynewsit Views346
    Read More
  14. 오피모빌리티, 지멘스 ‘Siemens Xcelerator‘로 제품 설계 최적화 실현

    - 오피모빌리티(Opmobility), 클라우드 기반 PLM인 ‘Teamcenter X’ 도입 - 단일 백본으로 Teamcenter 사용, 업무 효율성·프로젝트 납기일 최적 맞춰 지멘스(Siemens)는 오피모빌리티(OPmobility)와 파트너십을 맺고 ‘Teamcenter X’ 제품 수명 주기 관리(PLM) ...
    Date2025.03.26 Bynewsit Views488
    Read More
  15. No Image

    카스퍼스키, 보안 위협 대응 ‘위협 인텔리전스 활용 전략’ 발표  

    - 카스퍼스키, 전 세계에서 수집된 방대한 보안 데이터를 기반으로 사이버 위협을 분석, 기업이 효과적으로 공격을 예측하고 대응할 수 있도록 지원 - 행위 기반 탐지, 위협 인텔리전스 피드, IoC(침해지표) 매칭, 샌드박스 분석 등의 기술을 활용하여 공격자...
    Date2025.03.26 Bynewsit Views90
    Read More
  16. 슈퍼마이크로, 엔터프라이즈 AI 제품군 확대…“엔비디아 RTX 프로 6000 블랙웰 서버 에디션 및 H200 NVL 플랫폼 지원”

    - 최대 10개의 이중 대역폭 GPU를 탑재해 데이터센터 요구사항에 맞춰 확장 - 저전력 지능형 엣지 시스템에서 엔터프라이즈 AI LLM 추론 워크로드를 위한 최고의 유연성과 최적화된 성능 제공 슈퍼마이크로컴퓨터가 새로운 엔비디아 RTX 프로 6000 블랙웰 서버...
    Date2025.03.26 Bynewsit Views114
    Read More
  17. 스틸시리즈, ‘에이펙스 프로 TKL Gen 3 화이트' 및 ‘에이펙스 프로 미니 Gen 3' 출시

    - 국내 히트 모델 게이밍 키보드 ‘에이펙스 프로 TKL Gen 3’ 화이트 컬러 출시 - 컴팩트한 사이즈에 빠른 스피드와 강력한 성능 갖춘 ‘에이펙스 프로 미니 Gen 3’ 출시 - 네이버 공식스토어에서 3월 25일 ~ 4월 8일 2주간 출시 기념 프로모션 실시 스틸시리즈(...
    Date2025.03.26 Bynewsit Views142
    Read More
  18. 벤큐, 4K 프리미엄 게이밍 빔프로젝터 「X3100i」 예약판매 프로모션 이벤트

    - 3월 25일부터 4월 7일까지 네이버 브랜드스토어 단독 예약판매, 10% 할인 혜택 제공 벤큐코리아는 많은 고객들로부터 사랑받은 자사의 4K 프리미엄 게이밍 빔프로젝터 X3100i의 재입고에 맞춰, 오는 3월 25일(화)부터 4월 7일(월)까지 네이버 브랜드스토어에...
    Date2025.03.25 Bynewsit Views135
    Read More
  19. 매스웍스-알테라, AI 활용해 5G 및 6G 무선 시스템 개발 가속화

    - AI 기반 오토인코더 사용해 채널 상태 정보 데이터 압축… 네트워크 효율성 향상 및 비용 절감 매스웍스는 인텔의 자회사인 알테라(Altera)와 함께 알테라 FPGA의 무선 개발 가속화를 위한 협력 계획을 발표했다. 이를 통해 무선 시스템 엔지니어들은 AI 기반...
    Date2025.03.25 Bynewsit Views354
    Read More
  20. 와탭랩스, ‘2025 SW 마켓 페어’에서 공공 부문 디지털 전환 옵저버빌리티 솔루션 ‘와탭’ 공개

    - 27일 국내 대표 SW 전시회 ‘2025 SW 마켓 페어’ 참가 - ‘공공기관 대규모 모니터링 도입 사례 및 장애 진단 방법론’ 주제 발표 및 솔루션 전시 옵저버빌리티 전문 기업 와탭랩스가 오는 27일 정부세종컨벤션센터에서 열리는 ‘2025년 소프트웨어 마켓 페어(20...
    Date2025.03.25 Bynewsit Views676
    Read More
Board Pagination Prev 1 ... 63 64 65 66 67 68 69 70 71 72 ... 266 Next
/ 266
CLOSE