알리바바 클라우드, 엔드투엔드 멀티모달 AI 모델 ‘Qwen2.5-Omni-7B’ 공개.PNG

알리바바 클라우드가 자사 큐원(Qwen) 시리즈의 통합 엔드투엔드 멀티모달 모델인 ‘Qwen2.5-Omni-7B’를 새롭게 공개했다.

 

이번 모델은 종합적인 멀티모달 인식을 위해 설계되어, 텍스트, 이미지, 음성, 영상 등 다양한 형태의 입력 정보를 처리하고 실시간 텍스트 및 자연스러운 음성 응답을 지원함으로써 모바일 기기와 노트북과 같은 엣지 디바이스에 최적화된 멀티모달 AI 기술의 새로운 표준을 제시한다.

 

Qwen2.5-Omni-7B7B(70) 파라미터의 컴팩트한 설계에도 불구하고 성능 저하 없이 강력한 멀티모달 처리 능력을 제공한다. 이러한 고유한 조합은 특히 지능형 음성 애플리케이션과 같이 실질적인 가치를 제공하는 민첩하고 비용 효율적인 AI 에이전트 개발에 적합하다. 예를 들어 이 모델은 시각 장애인이 실시간 음성 설명을 통해 주변 환경을 인식하고 탐색할 수 있도록 지원하거나, 동영상 속 재료를 분석해 단계별 요리 가이드를 제공하는 데 활용될 수 있다. 또한 고객의 니즈를 정확히 이해하는 지능형 고객 응대 시스템 구현에도 적용 가능하다.

 

Qwen2.5-Omni-7B는 현재 허깅페이스(Hugging Face)와 깃허브(GitHub)를 통해 오픈소스로 공개되었으며, 큐원 챗(Qwen Chat)과 알리바바 클라우드 오픈소스 커뮤니티인 모델스코프(ModelScope)를 통해서도 접근할 수 있다. 알리바바 클라우드는 지난 몇 년간 총 200개 이상의 생성형 AI 모델을 오픈소스로 공개한 바 있다.

 

혁신적 아키텍처 기반의 고성능 멀티모달 처리

Qwen2.5-Omni-7B는 모든 모달리티 중에서 뛰어난 성능을 발휘하며, 유사한 규모의 단일 모달리티 특화 모델과 비교해도 손색이 없다. 특히 실시간 음성 상호작용, 자연스럽고 안정적인 음성 생성, 엔드투엔드 음성 명령어 이행 등에서 업계 최고 수준의 벤치마크를 제시했다.

해당 모델의 효율성과 고성능은 혁신적인 아키텍처에서 비롯된다. 대표적으로 텍스트 생성(Thinker)과 음성 합성(Talker)을 분리하여 서로 다른 모달 간의 간섭을 최소화하는 ‘Thinker-Talker 아키텍처’, 일관된 콘텐츠 생성을 위해 비디오 입력과 오디오를 보다 잘 동기화하는 위치 임베딩 기술 TMRoPE(Time-aligned Multimodal RoPE), 그리고 끊김 없는 음성 상호작용을 위한 저지연 오디오 응답을 가능하게 하는 블록와이즈 스트리밍 처리 등이 적용되었다.

 

경량 모델임에도 불구하고 탁월한 성능

Qwen2.5-Omni-7B는 이미지-텍스트, 영상-텍스트, 영상-음성, 음성-텍스트, 텍스트 데이터를 포함한 방대하고 다양한 데이터셋을 기반으로 사전 학습되어 다양한 작업에서 강력한 성능을 보장한다.

 알리바바 클라우드 엔드투엔드 멀티모달 AI 모델 Qwen2.5-Omni-7B 공개.jpg

혁신적인 아키텍처와 고품질 사전학습 데이터셋을 바탕으로 이 모델은 음성 명령을 정확히 이해하고 수행하는 데 뛰어난 성능을 보이며, 텍스트 입력만 사용하는 경우와 유사한 수준의 성능을 달성한다. 특히 시각, 청각(acoustic), 텍스트 정보를 통합적으로 인식, 해석, 추론하는 능력을 평가하는 OmniBench 벤치마크와 같이 다양한 모달리티를 통합적으로 처리해야 하는 작업에서도 Qwen2.5-Omni는 최고 수준의 성능을 기록했다.

 

Qwen2.5-Omni-7B는 인컨텍스트 러닝(ICL)을 통해 상황과 맥락에 따른 음성 이해 및 생성 능력을 향상시켰다. , 강화학습(RL) 기반 최적화를 통해 생성 안정성에서 상당한 향상을 보였으며, 음성 응답 시 주의력 분산, 발음 오류, 부자연스러운 정지 현상 등이 현저히 감소되었다.

 

한편, 알리바바 클라우드는 지난해 9Qwen2.5를 처음 공개한 데 이어, 올해 1월에는 ‘Qwen2.5-Max’를 출시해 Chatbot Arena에서 7위를 기록, 대등한 주요 상용 모델들 대비 뛰어난 성능을 입증한 바 있다. 또한, 시각 이해와 장문 입력 처리를 위한 모델인 ‘Qwen2.5-VL’‘Qwen2.5-1M’ 등을 오픈소스로 공개했다.

 

#알리바바클라우드#Qwen#멀티모달#AI#

 
?

  1. 플로우, “유일한 조달청 등록 협업툴로 공공시장 적극 공략”

    - 플로우, 유일한 조달청 등록 협업툴 - 이미 대형 공공부터 지자체 산하기관까지 확산…CSAP·조달 등록으로 접근성 강화 국산 협업툴 ‘플로우(flow)’가 국내 협업툴 업계 유일 조달청 제3자 단가계약 등록에 성공하며, 공공시장 공식 진입의 본격적인 문을 열...
    Date2025.04.24 Bynewsit Views685
    Read More
  2. 엘앤에프, ‘산업단지 ESG+ 협의체’ 참여로 지속가능 경영 리더십 강화

    - 한국산업단지공단 주관 '산업단지 ESG+ 협의체' 출범식 참여… ESG 경영 우수기업으로서 역할 강화 - ‘지속가능한 산업단지를 위한 첫걸음’ 슬로건 아래 탄소중립·자원순환 등 ESG 가치 실현 앞장 - 분기별 정기회의·전문가 포럼 통해 산업단지 특화 ESG 아젠...
    Date2025.04.24 Bynewsit Views287
    Read More
  3. 캐논코리아, 크리에이터 카메라의 새로운 기준 ‘EOS R50 V’ 공식 출시

    - 직관적인 조작성과 고화질 영상, 라이브 스트리밍 대응까지 갖춘 영상 특화 EOS/PowerShot V 시리즈 신제품 - 상상을 실감나는 콘텐츠로 구현해가는 영상 크리에이터의 여정 담은 광고 캠페인 ‘상상실감’ 영상 동시 공개 - 출시 기념 오는 6월 30일(월)까지 ...
    Date2025.04.24 Bynewsit Views205
    Read More
  4. 리앱 오픈소스 프로젝트, 오픈ELA 호환 시스템에 대한 인플레이스 업그레이드 제공

    - 엔터프라이즈 리눅스 생태계의 운영체제 업그레이드 및 이동성 촉진 오픈ELA(OpenELA)가 엔터프라이즈 리눅스 변형판 전반에 업그레이드 도구를 제공하는 리앱(Leapp) 오픈소스 프로젝트의 새로운 브랜치를 발표했다. 리앱은 관련 조치 제안 및 위험 식별, ...
    Date2025.04.24 Bynewsit Views694
    Read More
  5. 슈나이더 일렉트릭, 차세대 전력 인프라 솔루션으로 전력 안정성 및 효율성 강화 선도

    - EvoPacT HVX·Trihal 등 고도화된 전력기기 제품군 통해 신뢰도 높은 전력 시스템 구축 지원 - 에코스트럭처(EcoStruxure) 기반 통합 운영 통해 스마트한 에너지 전략 수립 가능 슈나이더 일렉트릭이 전력 인프라의 안정성과 효율성을 높이는 차세대 전력 솔...
    Date2025.04.24 Bynewsit Views428
    Read More
  6. 이글루코퍼레이션, 데이터 분석 정확도 높이는 AI 특허 취득

    - 기계학습 모델 성능 및 정확도 높이는 AI 특허 획득 - AI 특허만 34건 … ‘AI 기반 오픈 XDR 구현’ 속도 이글루코퍼레이션은 기계학습 모델의 성능과 정확도 향상을 위한 인공지능(AI) 특허를 취득했다고 밝혔다. 이로써 이글루코퍼레이션은 34개의 AI 특허를...
    Date2025.04.24 Bynewsit Views171
    Read More
  7. 사이냅소프트, 감성 충전 AI 다이어리 앱 사이다(SAIDA) 출시

    - 답답한 마음 시원하게 AI 친구 '사이다'와 톡! - 글쓰기가 어렵다면? AI가 써주는 마법 같은 일기! 도큐먼트 AI 전문 기업 사이냅소프트가 바쁜 일상에 지친 현대인들의 마음을 어루만져 줄 AI 감성 다이어리 앱 ‘사이다(SAIDA)’를 출시하며 디지털 힐링 시...
    Date2025.04.24 Bynewsit Views507
    Read More
  8. 알리바바 클라우드, 최신 오픈소스 영상 생성 모델 ‘Wan2.1-FLF2V-14B’ 공개

    알리바바 클라우드가 새로운 오픈소스 영상 생성 모델 ‘Wan2.1-FLF2V-14B’를 공개했다. 이번 모델은 시작 프레임과 종료 프레임을 입력값으로 활용해, 보다 정교하고 직관적인 영상 생성이 가능하도록 설계되었다. 이를 통해 숏폼 콘텐츠 제작자는 자신만의 AI...
    Date2025.04.24 Bynewsit Views469
    Read More
  9. 마우저, 피닉스컨택트의 ‘카탄(Catan) C1 EN’ 빌딩 자동화 컨트롤러 공급

    마우저 일렉트로닉스는 피닉스컨택트(Phoenix Contact)의 새로운 ‘카탄(Catan) C1 EN’ 빌딩 자동화 컨트롤러를 공급한다고 밝혔다. 카탄 빌딩 자동화 컨트롤러는 병원과 데이터센터, 상업용 빌딩 애플리케이션에서 스마트 룸 자동화를 보다 쉽게 구현할 수 있...
    Date2025.04.24 Bynewsit Views484
    Read More
  10. 파고네트웍스, AI 기반 통합 보안 플랫폼 ‘딥액트(DeepACT)’ 발표

    - 차세대 MDR 전략 선포 AI 기반 위협 헌팅·다크웹 인텔리전스·OT 보안까지 아우르는 글로벌 보안 비전 제시 - 딥액트, AI 기반 위협 식별, 자동화된 사고 대응, 실시간 위협 헌팅, 다크웹 인텔리전스 기반 공격자 탐지 지원 국내 대표 MDR 서비스 기업 파고네...
    Date2025.04.24 Bynewsit Views193
    Read More
  11. ams OSRAM, 초소형 칩 LED 출시…“인이어 기기에서 더욱 정확한 심박수 측정 지원”

    - ams OSRAM의 향상된 칩 LED, 모래알보다 조금 더 큰 크기로 더 높은 밝기 구현 - 인이어 헤드폰이나 스마트 링과 같은 일상적인 기기의 통합에 이상적 웨어러블 기기의 심박수 측정 기능이 지속적으로 향상되고 더욱 정밀해지고 있는 가운데, 지능형 센서 및...
    Date2025.04.23 Bynewsit Views424
    Read More
  12. TI, 차량용 칩 포트폴리오 「LMH13000」 출시…“차량의 자율성과 안전성 향상”

    - 업계 최초의 고속 단일칩 라이다(LiDAR) 레이저 드라이버로 개별 솔루션 대비 더 빠르고 정확하게 물체 감지 가능 - 벌크 탄성파(BAW) 기반의 새로운 고성능 자동차용 클록으로 기존 쿼츠 기반 클록 대비 100배 높은 신뢰성을 제공하며 더욱 안전한 작동 지...
    Date2025.04.23 Bynewsit Views498
    Read More
  13. 안랩, 2025년 1분기 피싱 문자 트렌드 보고서 발표…“공격 유형 1위는 기관 사칭”

    - 올 1분기 탐지한 피싱 문자의 ▲공격 유형 ▲사칭 산업군 ▲피싱 유도 방식을 분석한 결과를 담은 ‘2025년 1분기 피싱 문자 트렌드 보고서’ 발표 - 공격 유형 1위: 기관 사칭 | 사칭 산업군 1위: 정부·공공기관 | 피싱 시도 방식 1위: URL 삽입 안랩이 올 1분기...
    Date2025.04.23 Bynewsit Views187
    Read More
  14. Ceva, 넥스트칩(Nextchip)의 차세대 ADAS 솔루션에 에지 AI NPU 공급

    - 넥스트칩, 차량용 안전 시스템 성능 및 기능 강화를 위해 고성능·고효율 AI 프로세서 ‘뉴프로-M NPU’ 도입 Ceva가 넥스트칩(Nextchip)이 차세대 첨단 운전자 보조 시스템(ADAS) 솔루션에 자사의 뉴프로-M 에지 AI NPU IP를 도입했다고 23일 밝혔다. 넥스트칩...
    Date2025.04.23 Bynewsit Views482
    Read More
  15. 스틸시리즈, ‘롤링스톤 2025 오디오 어워즈’ 베스트 게이밍 헤드폰 및 게이밍 이어버드 2개 부문 수상

    - 아크티스 노바 프로, 풍부한 사운드와 노이즈 캔슬링 기능, 배터리 성능으로 3년 연속 베스트 게이밍 헤드폰 등극 - 아크티스 게임버즈, “완벽한 올인원 제품” 극찬 받으며 2025년 새롭게 베스트 게이밍 이어버드 선정 스틸시리즈(SteelSeries)가 미국 음악 ...
    Date2025.04.23 Bynewsit Views160
    Read More
  16. 하이크비전, 국제 사이버 보안 제품 인증 획득…“IoT 기기 보안 최고 권위 인정”

    - IoT 제품의 보안 및 규정 준수 노력으로 ‘ETSI EN 303 645’ 및 ‘EN 18031’ 인증 하이크비전이 글로벌 인증 기관인 '뷰로 베리타스(Bureau Veritas)'에서 수여하는 국제 사이버 보안 표준 ‘ETSI EN 303 645’과 ‘EN 18031’ 인증을 획득했다고 밝혔다. ETSI EN ...
    Date2025.04.23 Bynewsit Views192
    Read More
  17. ST, xMemory 탑재한 자동차용 MCU 스텔라(Stellar) 출시…“혁신적 메모리 솔루션으로 미래 지향적 차세대 자동차 개발 지원”

    - 보다 간단하고 확장 가능한 컴퓨팅 플랫폼 구현으로 소프트웨어 정의 차량 개발과 전기자동차 아키텍처의 발전 지원 - 자동차 제조사가 확장 가능한 기능으로 더 많은 메모리가 필요한 AI 애플리케이션을 비롯해 지속적 혁신을 실현하도록 지원 - ST의 독보...
    Date2025.04.22 Bynewsit Views307
    Read More
  18. 네티스, 와이파이6 공유기 2종 한정수량 특가 이벤트

    네트워크 전문기업 넷유가 와이파이6 공유기 2종 특가 이벤트를 진행한다고 밝혔다. 네티스의 스테디셀러 제품 ‘netis MEX605’를 포함한 와이파이6(802.11AX)공유기 2종(MEX605,MEX601)을 쿠팡(www.coupang.com) 사이트에서 각 모델 별 500대 한정수량으로 4월...
    Date2025.04.22 Bynewsit Views168
    Read More
  19. 다쏘시스템, 유네스코와 함께 세계 엔지니어링의 날 기념

    다쏘시스템은 유네스코(UNESCO) 및 세계엔지니어링기구연맹(WFEO)과 파트너십을 맺고, 버추얼 트윈이 책임 있는 혁신적 비즈니스 관행을 촉진하고 유엔(UN) 지속가능발전목표(SDGs) 달성에 기여하는 가치를 조명한다고 밝혔다. 이번 협력의 일환으로, 지난 3월...
    Date2025.04.22 Bynewsit Views574
    Read More
  20. 카스퍼스키, 전년 대비 매출이 11% 증가…역대 최고인 8억 2,200만 달러 실적 기록

    카스퍼스키는 오늘 2024년 재무 실적을 발표하고, 전년 대비 매출이 11% 증가하여 역대 최고인 8억 2,200만 달러를 기록했다고 밝혔다. 2024년에 카스퍼스키는 솔루션 포트폴리오를 더욱 강화하여 비즈니스를 성장시켰다. 지정학적 이슈와 그에 따른 제약에도 ...
    Date2025.04.22 Bynewsit Views164
    Read More
Board Pagination Prev 1 ... 64 65 66 67 68 69 70 71 72 73 ... 273 Next
/ 273
CLOSE