알리바바 클라우드, 엔드투엔드 멀티모달 AI 모델 ‘Qwen2.5-Omni-7B’ 공개.PNG

알리바바 클라우드가 자사 큐원(Qwen) 시리즈의 통합 엔드투엔드 멀티모달 모델인 ‘Qwen2.5-Omni-7B’를 새롭게 공개했다.

 

이번 모델은 종합적인 멀티모달 인식을 위해 설계되어, 텍스트, 이미지, 음성, 영상 등 다양한 형태의 입력 정보를 처리하고 실시간 텍스트 및 자연스러운 음성 응답을 지원함으로써 모바일 기기와 노트북과 같은 엣지 디바이스에 최적화된 멀티모달 AI 기술의 새로운 표준을 제시한다.

 

Qwen2.5-Omni-7B7B(70) 파라미터의 컴팩트한 설계에도 불구하고 성능 저하 없이 강력한 멀티모달 처리 능력을 제공한다. 이러한 고유한 조합은 특히 지능형 음성 애플리케이션과 같이 실질적인 가치를 제공하는 민첩하고 비용 효율적인 AI 에이전트 개발에 적합하다. 예를 들어 이 모델은 시각 장애인이 실시간 음성 설명을 통해 주변 환경을 인식하고 탐색할 수 있도록 지원하거나, 동영상 속 재료를 분석해 단계별 요리 가이드를 제공하는 데 활용될 수 있다. 또한 고객의 니즈를 정확히 이해하는 지능형 고객 응대 시스템 구현에도 적용 가능하다.

 

Qwen2.5-Omni-7B는 현재 허깅페이스(Hugging Face)와 깃허브(GitHub)를 통해 오픈소스로 공개되었으며, 큐원 챗(Qwen Chat)과 알리바바 클라우드 오픈소스 커뮤니티인 모델스코프(ModelScope)를 통해서도 접근할 수 있다. 알리바바 클라우드는 지난 몇 년간 총 200개 이상의 생성형 AI 모델을 오픈소스로 공개한 바 있다.

 

혁신적 아키텍처 기반의 고성능 멀티모달 처리

Qwen2.5-Omni-7B는 모든 모달리티 중에서 뛰어난 성능을 발휘하며, 유사한 규모의 단일 모달리티 특화 모델과 비교해도 손색이 없다. 특히 실시간 음성 상호작용, 자연스럽고 안정적인 음성 생성, 엔드투엔드 음성 명령어 이행 등에서 업계 최고 수준의 벤치마크를 제시했다.

해당 모델의 효율성과 고성능은 혁신적인 아키텍처에서 비롯된다. 대표적으로 텍스트 생성(Thinker)과 음성 합성(Talker)을 분리하여 서로 다른 모달 간의 간섭을 최소화하는 ‘Thinker-Talker 아키텍처’, 일관된 콘텐츠 생성을 위해 비디오 입력과 오디오를 보다 잘 동기화하는 위치 임베딩 기술 TMRoPE(Time-aligned Multimodal RoPE), 그리고 끊김 없는 음성 상호작용을 위한 저지연 오디오 응답을 가능하게 하는 블록와이즈 스트리밍 처리 등이 적용되었다.

 

경량 모델임에도 불구하고 탁월한 성능

Qwen2.5-Omni-7B는 이미지-텍스트, 영상-텍스트, 영상-음성, 음성-텍스트, 텍스트 데이터를 포함한 방대하고 다양한 데이터셋을 기반으로 사전 학습되어 다양한 작업에서 강력한 성능을 보장한다.

 알리바바 클라우드 엔드투엔드 멀티모달 AI 모델 Qwen2.5-Omni-7B 공개.jpg

혁신적인 아키텍처와 고품질 사전학습 데이터셋을 바탕으로 이 모델은 음성 명령을 정확히 이해하고 수행하는 데 뛰어난 성능을 보이며, 텍스트 입력만 사용하는 경우와 유사한 수준의 성능을 달성한다. 특히 시각, 청각(acoustic), 텍스트 정보를 통합적으로 인식, 해석, 추론하는 능력을 평가하는 OmniBench 벤치마크와 같이 다양한 모달리티를 통합적으로 처리해야 하는 작업에서도 Qwen2.5-Omni는 최고 수준의 성능을 기록했다.

 

Qwen2.5-Omni-7B는 인컨텍스트 러닝(ICL)을 통해 상황과 맥락에 따른 음성 이해 및 생성 능력을 향상시켰다. , 강화학습(RL) 기반 최적화를 통해 생성 안정성에서 상당한 향상을 보였으며, 음성 응답 시 주의력 분산, 발음 오류, 부자연스러운 정지 현상 등이 현저히 감소되었다.

 

한편, 알리바바 클라우드는 지난해 9Qwen2.5를 처음 공개한 데 이어, 올해 1월에는 ‘Qwen2.5-Max’를 출시해 Chatbot Arena에서 7위를 기록, 대등한 주요 상용 모델들 대비 뛰어난 성능을 입증한 바 있다. 또한, 시각 이해와 장문 입력 처리를 위한 모델인 ‘Qwen2.5-VL’‘Qwen2.5-1M’ 등을 오픈소스로 공개했다.

 

#알리바바클라우드#Qwen#멀티모달#AI#

 
?

List of Articles
번호 분류 제목 글쓴이 날짜 조회 수
1658 트림블코리아, ‘테클라 유저 데이 2025’ 개최 - 트림블 테클라 소프트웨어 고객 성공 사례와 최신 기술 공유 - 신제품 ‘테클라 파워팹 2025’ 발표… 철골 생산성 최대 두 배 향상 - AI 도면·모델링 자동화 등 ... file newsit 2025.05.13 569
1657 SAP 코리아-서울시, 클라우드 기반 소프트웨어 인력 양성 프로그램 실시 - 서울시와 서울경제진흥원이 주관하는 청년취업사관학교 ‘새싹(SeSAC)’ 과정 참가자 40명 모집 - 이전 과정 수료율 100%, 취업률 94%, 만족도 97% 달성 - 서울시... file newsit 2025.05.12 543
1656 와탭랩스, ‘AWS 서밋 서울 2025’ 참가···“클라우드 혁신을 위한 주요 옵저버빌리티 솔루션 공개” - 데브옵스 및 옵저버빌리티 최신 트렌드 및 도입 성공 사례 발표 - 네트워크 성능 모니터링(NPM), 리얼 유저 모니터링(RUM) 등 와탭 주요 솔루션 데모 시연 진행... file newsit 2025.05.12 456
1655 더존비즈온, “1분기 매출 986억원·영업이익 216억원” 달성 - 연결기준 전년 대비 매출 4.4%, 영업이익 19.2% 증가 더존비즈온은 1분기 실적 공시를 통해 연결기준 매출 986억원, 영업이익 216억원을 달성했다고 9일 발표했... file newsit 2025.05.09 517
1654 쿤텍-dSPACE 코리아, SIL 기반 소프트웨어 검증 환경 구축 및 시장 발굴 MOU 체결 - 소프트웨어 안정성 및 신뢰성 향상을 위한 기술 협력 - SIL 기반 가상 검증 플랫폼 공동 개발, 국내외 시장 발굴 목표 임베디드 가상화 전문기업 쿤텍은 오늘 ... file newsit 2025.05.09 525
1653 슈나이더 일렉트릭, AI 데이터센터용 전력 관리 솔루션으로 스마트 에너지 관리 실현 - AI 데이터센터의 안정적인 전력 공급과 효율적인 에너지 관리 가능한 스마트 전력 솔루션 보유 - 엔비디아 및 SKT와 MOU 체결 통해 AI 데이터센터 생태계의 안... file newsit 2025.05.08 616
1652 큐브리드, 오픈소스 DBMS CUBRID 11.4 버전 출시 큐브리드가 자사의 오픈소스 DBMS ‘큐브리드(CUBRID)’의 대용량 처리 지원을 강화하고, 성능을 개선하는 한편 오라클 호환성을 향상시킨 CUBRID 11.4 버전을 출시... file newsit 2025.05.08 591
1651 윈드리버, 캡제미니와 파트너십 확대…“엔터프라이즈용 차세대 프라이빗 클라우드 솔루션 제공” - 양사 파트너십으로 윈드리버 클라우드 플랫폼 및 eLxr Pro와 캡제미니의 시스템 통합, 혁신 및 애플리케이션 현대화 기능 결합 - 인프라 및 애플리케이션을 현... file newsit 2025.05.08 562
1650 다쏘시스템, ‘3D익스피리언스 컨퍼런스 코리아 2025’ 개최…“AI 시대 선도하는 버추얼 트윈 혁신 제시” - 버추얼 트윈 기술 중심의 3D UNIV+RSES 비전과 7개 혁신 브랜드 최신 기술 트렌드 소개 - 5개 브랜드 트랙 및 별도 마련된 SDV 트랙 통해 SDV 솔루션 전략, 3D... file newsit 2025.05.08 591
1649 오토폼엔지니어링, 한국의 디지털 금형 생태계 본격 조성…“중소 협력사 기술 지원부터 인재 양성까지 전방위 확장” - 글로벌 금형 시뮬레이션 소프트웨어 리더, 국내 제조 혁신 가속화 위한 기술 파트너로 도약 글로벌 금형 시뮬레이션 소프트웨어 1위 기업 오토폼엔지니어링(Aut... file newsit 2025.05.08 554
목록
Board Pagination Prev 1 ... 66 67 68 69 70 71 72 73 74 75 ... 236 Next
/ 236
CLOSE