알리바바 클라우드, 엔드투엔드 멀티모달 AI 모델 ‘Qwen2.5-Omni-7B’ 공개.PNG

알리바바 클라우드가 자사 큐원(Qwen) 시리즈의 통합 엔드투엔드 멀티모달 모델인 ‘Qwen2.5-Omni-7B’를 새롭게 공개했다.

 

이번 모델은 종합적인 멀티모달 인식을 위해 설계되어, 텍스트, 이미지, 음성, 영상 등 다양한 형태의 입력 정보를 처리하고 실시간 텍스트 및 자연스러운 음성 응답을 지원함으로써 모바일 기기와 노트북과 같은 엣지 디바이스에 최적화된 멀티모달 AI 기술의 새로운 표준을 제시한다.

 

Qwen2.5-Omni-7B7B(70) 파라미터의 컴팩트한 설계에도 불구하고 성능 저하 없이 강력한 멀티모달 처리 능력을 제공한다. 이러한 고유한 조합은 특히 지능형 음성 애플리케이션과 같이 실질적인 가치를 제공하는 민첩하고 비용 효율적인 AI 에이전트 개발에 적합하다. 예를 들어 이 모델은 시각 장애인이 실시간 음성 설명을 통해 주변 환경을 인식하고 탐색할 수 있도록 지원하거나, 동영상 속 재료를 분석해 단계별 요리 가이드를 제공하는 데 활용될 수 있다. 또한 고객의 니즈를 정확히 이해하는 지능형 고객 응대 시스템 구현에도 적용 가능하다.

 

Qwen2.5-Omni-7B는 현재 허깅페이스(Hugging Face)와 깃허브(GitHub)를 통해 오픈소스로 공개되었으며, 큐원 챗(Qwen Chat)과 알리바바 클라우드 오픈소스 커뮤니티인 모델스코프(ModelScope)를 통해서도 접근할 수 있다. 알리바바 클라우드는 지난 몇 년간 총 200개 이상의 생성형 AI 모델을 오픈소스로 공개한 바 있다.

 

혁신적 아키텍처 기반의 고성능 멀티모달 처리

Qwen2.5-Omni-7B는 모든 모달리티 중에서 뛰어난 성능을 발휘하며, 유사한 규모의 단일 모달리티 특화 모델과 비교해도 손색이 없다. 특히 실시간 음성 상호작용, 자연스럽고 안정적인 음성 생성, 엔드투엔드 음성 명령어 이행 등에서 업계 최고 수준의 벤치마크를 제시했다.

해당 모델의 효율성과 고성능은 혁신적인 아키텍처에서 비롯된다. 대표적으로 텍스트 생성(Thinker)과 음성 합성(Talker)을 분리하여 서로 다른 모달 간의 간섭을 최소화하는 ‘Thinker-Talker 아키텍처’, 일관된 콘텐츠 생성을 위해 비디오 입력과 오디오를 보다 잘 동기화하는 위치 임베딩 기술 TMRoPE(Time-aligned Multimodal RoPE), 그리고 끊김 없는 음성 상호작용을 위한 저지연 오디오 응답을 가능하게 하는 블록와이즈 스트리밍 처리 등이 적용되었다.

 

경량 모델임에도 불구하고 탁월한 성능

Qwen2.5-Omni-7B는 이미지-텍스트, 영상-텍스트, 영상-음성, 음성-텍스트, 텍스트 데이터를 포함한 방대하고 다양한 데이터셋을 기반으로 사전 학습되어 다양한 작업에서 강력한 성능을 보장한다.

 알리바바 클라우드 엔드투엔드 멀티모달 AI 모델 Qwen2.5-Omni-7B 공개.jpg

혁신적인 아키텍처와 고품질 사전학습 데이터셋을 바탕으로 이 모델은 음성 명령을 정확히 이해하고 수행하는 데 뛰어난 성능을 보이며, 텍스트 입력만 사용하는 경우와 유사한 수준의 성능을 달성한다. 특히 시각, 청각(acoustic), 텍스트 정보를 통합적으로 인식, 해석, 추론하는 능력을 평가하는 OmniBench 벤치마크와 같이 다양한 모달리티를 통합적으로 처리해야 하는 작업에서도 Qwen2.5-Omni는 최고 수준의 성능을 기록했다.

 

Qwen2.5-Omni-7B는 인컨텍스트 러닝(ICL)을 통해 상황과 맥락에 따른 음성 이해 및 생성 능력을 향상시켰다. , 강화학습(RL) 기반 최적화를 통해 생성 안정성에서 상당한 향상을 보였으며, 음성 응답 시 주의력 분산, 발음 오류, 부자연스러운 정지 현상 등이 현저히 감소되었다.

 

한편, 알리바바 클라우드는 지난해 9Qwen2.5를 처음 공개한 데 이어, 올해 1월에는 ‘Qwen2.5-Max’를 출시해 Chatbot Arena에서 7위를 기록, 대등한 주요 상용 모델들 대비 뛰어난 성능을 입증한 바 있다. 또한, 시각 이해와 장문 입력 처리를 위한 모델인 ‘Qwen2.5-VL’‘Qwen2.5-1M’ 등을 오픈소스로 공개했다.

 

#알리바바클라우드#Qwen#멀티모달#AI#

 
?

  1. 한국레노버, 아산 한들물빛초에서 크롬북 활용한 교육 봉사활동

    한국레노버가 충남 아산시 한들물빛초등학교에서 임직원들과 함께 디지털 교육 봉사활동을 펼쳤다. 이번 활동은 레노버의 글로벌 사회공헌 캠페인 ‘LMOS(Love on Month of Service)’의 일환으로 지역 학생들에게 디지털 체험 기회를 제공하기 위해 마련됐다. 2...
    Date2025.09.29 Bynewsit Views261
    Read More
  2. 오라클, AI 기반 ‘거버먼트 데이터 인텔리전스 포 애그리컬쳐’ 발표…글로벌 식량 시스템 회복탄력성 강화 지원

    - 자바 식량 안보 핵심 동인 분석, 방대한 농업 데이터를 안전하게 집계·분석하는 AI 솔루션 오라클이 세계 각국 정부가 식량 시스템의 회복탄력성을 강화할 수 있도록 돕는 신규 솔루션 ‘오라클 거버먼트 데이터 인텔리전스 포 애그리컬쳐(Oracle Government ...
    Date2025.09.29 Bynewsit Views235
    Read More
  3. 뉴타닉스-신세계아이앤씨, 전략적 파트너십 확대…하이브리드 멀티클라우드 도입 가속화

    뉴타닉스(Nutanix)가 신세계그룹 IT 계열사 신세계아이앤씨와의 전략적 파트너십을 확대하며 국내 기업들의 클라우드 전환 가속화에 나선다. 뉴타닉스는 25일, 신세계아이앤씨가 자사 ‘엘리베이트 서비스 프로바이더(Elevate Service Provider)’ 프로그램에 참...
    Date2025.09.25 Bynewsit Views316
    Read More
  4. 세일즈포스, ‘AI & CX 페스타 2025’ 개최…AI 에이전트 기반 고객 서비스 혁신 전략 공개

    세일즈포스(Salesforce)가 24일 서울 롯데월드타워 SKY31 컨벤션에서 연례 컨퍼런스 ‘AI & CX 페스타 2025’를 개최하고, 세일즈포스의 자율형 AI 에이전트 플랫폼 ‘에이전트포스(Agentforce)’와 서비스 클라우드(Service Cloud) 기반 고객경험(CX) 혁신 전략과...
    Date2025.09.25 Bynewsit Views244
    Read More
  5. 레노버, 중소기업 맞춤형 ‘AI 레디’ IT 솔루션 출시… AI·엣지 시대 준비 가속화

    레노버(Lenovo)가 중소기업이 AI·엣지 컴퓨팅 시대에 맞춰 IT 인프라를 손쉽게 도입하고 확장할 수 있는 새로운 솔루션을 선보였다. 이번 솔루션은 사전 검증된 서버와 소프트웨어, 사용량 기반 가격 모델을 결합한 ‘비즈니스 레디 IT 번들’로 중소기업이 빠르...
    Date2025.09.25 Bynewsit Views291
    Read More
  6. 매스웍스, ETRI ‘직교형 레이다 신호’ 개발 지원…자동화된 HDL 코드 생성으로 개발 효율성 50% 향상

    매스웍스(MathWorks)는 한국전자통신연구원(ETRI)이 자사의 매트랩(MATLAB)과 시뮬링크(Simulink)를 활용해 직교형 레이다 신호 송수신용 실시간 신호처리 모듈을 성공적으로 개발했다고 밝혔다. 이번 연구는 내셔널인스트루먼트 FPGA 기반 레이다 에뮬레이션 ...
    Date2025.09.25 Bynewsit Views296
    Read More
  7. 엔비디아, 오픈AI와 10GW 규모 AI 시스템 구축 파트너십 체결

    - 수백만 개 GPU로 구성된 엔비디아 시스템 기반 AI 데이터센터 설립 - 오픈AI에 1GW 배치 시마다 최대 1,000억 달러 투자 계획 - 2026년 하반기, 엔비디아 ‘베라 루빈’ 플랫폼 통해 첫 번째 시스템 가동 엔비디아가 오픈AI(OpenAI)와 전략적 파트너십을 체결...
    Date2025.09.25 Bynewsit Views250
    Read More
  8. 딥엘, 상용 API 솔루션 플랫폼 ‘딥엘 마켓플레이스’ 공개

    딥엘(DeepL)이 자사의 AI 번역·글쓰기 API 기반 애플리케이션을 한 곳에서 탐색하고 도입할 수 있는 ‘딥엘 마켓플레이스(DeepL Marketplace)’를 공개했다. 이번 플랫폼은 기업 고객이 API 활용 과정에서 겪는 시간·비용·복잡성을 줄이고, 기존 툴과 자연스럽게...
    Date2025.09.25 Bynewsit Views252
    Read More
  9. 슈나이더 일렉트릭-엔비디아, 차세대 AI 데이터센터 레퍼런스 디자인 공개

    슈나이더 일렉트릭이 엔비디아(NVIDIA)와 공동으로 개발한 차세대 AI 데이터센터 레퍼런스 디자인을 발표했다. 이번 레퍼런스 디자인은 AI 인프라의 전력·냉각 최적화와 제어 기능을 강화해 데이터센터 운영자들이 급증하는 AI 워크로드를 효율적으로 대응할 ...
    Date2025.09.25 Bynewsit Views249
    Read More
  10. 전 세계 암호화폐 백만장자 24만 명 돌파… 1년 새 40%↑

    - 비트코인 백만장자 70% 급증… 글로벌 암호화폐 자산 사상 최대치 - 암호화폐 자산가 급증, 10억달러 이상 보유 억만장자 36명 등장 - 암호화폐 자산, 역사적 증가세… 암호화폐 백만장자 25만 명 눈앞 - Henley & Partners, ‘암호화폐 자산 보고서 2025’ 발표...
    Date2025.09.25 Bynewsit Views257
    Read More
목록
Board Pagination Prev 1 ... 39 40 41 42 43 44 45 46 47 48 ... 235 Next
/ 235
CLOSE