알리바바 클라우드, 엔드투엔드 멀티모달 AI 모델 ‘Qwen2.5-Omni-7B’ 공개.PNG

알리바바 클라우드가 자사 큐원(Qwen) 시리즈의 통합 엔드투엔드 멀티모달 모델인 ‘Qwen2.5-Omni-7B’를 새롭게 공개했다.

 

이번 모델은 종합적인 멀티모달 인식을 위해 설계되어, 텍스트, 이미지, 음성, 영상 등 다양한 형태의 입력 정보를 처리하고 실시간 텍스트 및 자연스러운 음성 응답을 지원함으로써 모바일 기기와 노트북과 같은 엣지 디바이스에 최적화된 멀티모달 AI 기술의 새로운 표준을 제시한다.

 

Qwen2.5-Omni-7B7B(70) 파라미터의 컴팩트한 설계에도 불구하고 성능 저하 없이 강력한 멀티모달 처리 능력을 제공한다. 이러한 고유한 조합은 특히 지능형 음성 애플리케이션과 같이 실질적인 가치를 제공하는 민첩하고 비용 효율적인 AI 에이전트 개발에 적합하다. 예를 들어 이 모델은 시각 장애인이 실시간 음성 설명을 통해 주변 환경을 인식하고 탐색할 수 있도록 지원하거나, 동영상 속 재료를 분석해 단계별 요리 가이드를 제공하는 데 활용될 수 있다. 또한 고객의 니즈를 정확히 이해하는 지능형 고객 응대 시스템 구현에도 적용 가능하다.

 

Qwen2.5-Omni-7B는 현재 허깅페이스(Hugging Face)와 깃허브(GitHub)를 통해 오픈소스로 공개되었으며, 큐원 챗(Qwen Chat)과 알리바바 클라우드 오픈소스 커뮤니티인 모델스코프(ModelScope)를 통해서도 접근할 수 있다. 알리바바 클라우드는 지난 몇 년간 총 200개 이상의 생성형 AI 모델을 오픈소스로 공개한 바 있다.

 

혁신적 아키텍처 기반의 고성능 멀티모달 처리

Qwen2.5-Omni-7B는 모든 모달리티 중에서 뛰어난 성능을 발휘하며, 유사한 규모의 단일 모달리티 특화 모델과 비교해도 손색이 없다. 특히 실시간 음성 상호작용, 자연스럽고 안정적인 음성 생성, 엔드투엔드 음성 명령어 이행 등에서 업계 최고 수준의 벤치마크를 제시했다.

해당 모델의 효율성과 고성능은 혁신적인 아키텍처에서 비롯된다. 대표적으로 텍스트 생성(Thinker)과 음성 합성(Talker)을 분리하여 서로 다른 모달 간의 간섭을 최소화하는 ‘Thinker-Talker 아키텍처’, 일관된 콘텐츠 생성을 위해 비디오 입력과 오디오를 보다 잘 동기화하는 위치 임베딩 기술 TMRoPE(Time-aligned Multimodal RoPE), 그리고 끊김 없는 음성 상호작용을 위한 저지연 오디오 응답을 가능하게 하는 블록와이즈 스트리밍 처리 등이 적용되었다.

 

경량 모델임에도 불구하고 탁월한 성능

Qwen2.5-Omni-7B는 이미지-텍스트, 영상-텍스트, 영상-음성, 음성-텍스트, 텍스트 데이터를 포함한 방대하고 다양한 데이터셋을 기반으로 사전 학습되어 다양한 작업에서 강력한 성능을 보장한다.

 알리바바 클라우드 엔드투엔드 멀티모달 AI 모델 Qwen2.5-Omni-7B 공개.jpg

혁신적인 아키텍처와 고품질 사전학습 데이터셋을 바탕으로 이 모델은 음성 명령을 정확히 이해하고 수행하는 데 뛰어난 성능을 보이며, 텍스트 입력만 사용하는 경우와 유사한 수준의 성능을 달성한다. 특히 시각, 청각(acoustic), 텍스트 정보를 통합적으로 인식, 해석, 추론하는 능력을 평가하는 OmniBench 벤치마크와 같이 다양한 모달리티를 통합적으로 처리해야 하는 작업에서도 Qwen2.5-Omni는 최고 수준의 성능을 기록했다.

 

Qwen2.5-Omni-7B는 인컨텍스트 러닝(ICL)을 통해 상황과 맥락에 따른 음성 이해 및 생성 능력을 향상시켰다. , 강화학습(RL) 기반 최적화를 통해 생성 안정성에서 상당한 향상을 보였으며, 음성 응답 시 주의력 분산, 발음 오류, 부자연스러운 정지 현상 등이 현저히 감소되었다.

 

한편, 알리바바 클라우드는 지난해 9Qwen2.5를 처음 공개한 데 이어, 올해 1월에는 ‘Qwen2.5-Max’를 출시해 Chatbot Arena에서 7위를 기록, 대등한 주요 상용 모델들 대비 뛰어난 성능을 입증한 바 있다. 또한, 시각 이해와 장문 입력 처리를 위한 모델인 ‘Qwen2.5-VL’‘Qwen2.5-1M’ 등을 오픈소스로 공개했다.

 

#알리바바클라우드#Qwen#멀티모달#AI#

 
?

  1. 카스퍼스키, “글로벌 성능 테스트 1,000건 이상 참가해 톱3 97% 달성”

    - 가장 많이 테스트에 참여하여, 가장 많은 상 받아 - 2013년 이후 1,000건 이상 테스트 참가하여 TOP3 비율 97%(역대 최고) - 2024년 카스퍼스키 주요 성과 - 12년 연속 업계 최고 성과, 95건 독립 테스트 참가하여 91건 1위, 92건 TOP3 달성 - Kaspersky Sta...
    Date2025.04.28 Bynewsit Views176
    Read More
  2. HS효성인포메이션, 차세대 스토리지 플랫폼 ‘VSP One’ 새로운 기능 공개

    - 사이버 복원력지〮속가능성 보장으로 엔터프라이즈 인프라 혁신 - 보안 강화, 에너지 효율 제고, 지속가능한 IT 운영 지원 - 변경 불가능한 스냅샷 기반 보호 기능…데이터 손실 및 다운타임 최소화 HS효성인포메이션시스템이 차세대 스토리지 플랫폼 ‘VSP(Vi...
    Date2025.04.28 Bynewsit Views124
    Read More
  3. SAS코리아-호서대, 데이터 분석 및 AI 인재 양성에 협력

    - SAS코리아, 호서대 빅데이터AI학부에 빅데이터 인재 양성 위한 SAS 교육 과정 및 진로개발 프로그램 제공 - 호서대, 학위와 연계한 ‘SAS 아카데믹 스페셜라이제이션 프로그램’ 통해 분석 전문가 경력 개발 지원 AI 선도 기업 SAS는 호서대학교 빅데이터AI학...
    Date2025.04.28 Bynewsit Views538
    Read More
  4. 키오시아 ‘엑서리아 플러스 G2 휴대용 SSD’, 2025년 레드닷 디자인 어워드 제품 디자인 부문 수상

    - 세련된 디자인, 사용자 중심 기능 및 내구성이 뛰어난 구조로 호평 키오시아(Kioxia)는 자사의 ‘엑서리아 플러스 G2 포터블 SSD 시리즈(EXCERIA PLUS G2 Portable SSD Series)’가 ‘2025년 레드닷 디자인 어워드’의 제품 디자인(Product Design) 부문에서 수...
    Date2025.04.25 Bynewsit Views163
    Read More
  5. 엔비디아, 기업 생산성 강화하는 ‘네모 마이크로서비스’ 정식 출시

    - 데이터 플라이휠 활용해 지속적으로 최적화하는 엔드 투 엔드 개발자 플랫폼 제공 - 기업 맞춤형 AI 에이전트 구축 위한 다양한 마이크로서비스 통합 지원 - AT&T, 블랙록, 시스코 등에서 선도적으로 도입해 AI 에이전트 정확성과 응답 시간 개선 엔비디아가...
    Date2025.04.25 Bynewsit Views478
    Read More
  6. 사이냅소프트, ‘AI 엑스포 코리아 2025’ 참가…“최신 문서 AI 솔루션 공개”

    사이냅소프트는 오는 5월 14일부터 16일까지 서울 삼성동 코엑스에서 열리는 ‘국제인공지능대전(AI 엑스포 코리아 2025)’에 참가해 최신 도큐먼트 AI 솔루션을 선보인다고 25일 밝혔다. 이번 전시회에서 사이냅소프트는 ▲신뢰할 수 있는 RAG 구축을 위한 문서 ...
    Date2025.04.25 Bynewsit Views528
    Read More
  7. 플로우, “유일한 조달청 등록 협업툴로 공공시장 적극 공략”

    - 플로우, 유일한 조달청 등록 협업툴 - 이미 대형 공공부터 지자체 산하기관까지 확산…CSAP·조달 등록으로 접근성 강화 국산 협업툴 ‘플로우(flow)’가 국내 협업툴 업계 유일 조달청 제3자 단가계약 등록에 성공하며, 공공시장 공식 진입의 본격적인 문을 열...
    Date2025.04.24 Bynewsit Views688
    Read More
  8. 엘앤에프, ‘산업단지 ESG+ 협의체’ 참여로 지속가능 경영 리더십 강화

    - 한국산업단지공단 주관 '산업단지 ESG+ 협의체' 출범식 참여… ESG 경영 우수기업으로서 역할 강화 - ‘지속가능한 산업단지를 위한 첫걸음’ 슬로건 아래 탄소중립·자원순환 등 ESG 가치 실현 앞장 - 분기별 정기회의·전문가 포럼 통해 산업단지 특화 ESG 아젠...
    Date2025.04.24 Bynewsit Views290
    Read More
  9. 캐논코리아, 크리에이터 카메라의 새로운 기준 ‘EOS R50 V’ 공식 출시

    - 직관적인 조작성과 고화질 영상, 라이브 스트리밍 대응까지 갖춘 영상 특화 EOS/PowerShot V 시리즈 신제품 - 상상을 실감나는 콘텐츠로 구현해가는 영상 크리에이터의 여정 담은 광고 캠페인 ‘상상실감’ 영상 동시 공개 - 출시 기념 오는 6월 30일(월)까지 ...
    Date2025.04.24 Bynewsit Views206
    Read More
  10. 리앱 오픈소스 프로젝트, 오픈ELA 호환 시스템에 대한 인플레이스 업그레이드 제공

    - 엔터프라이즈 리눅스 생태계의 운영체제 업그레이드 및 이동성 촉진 오픈ELA(OpenELA)가 엔터프라이즈 리눅스 변형판 전반에 업그레이드 도구를 제공하는 리앱(Leapp) 오픈소스 프로젝트의 새로운 브랜치를 발표했다. 리앱은 관련 조치 제안 및 위험 식별, ...
    Date2025.04.24 Bynewsit Views696
    Read More
  11. 슈나이더 일렉트릭, 차세대 전력 인프라 솔루션으로 전력 안정성 및 효율성 강화 선도

    - EvoPacT HVX·Trihal 등 고도화된 전력기기 제품군 통해 신뢰도 높은 전력 시스템 구축 지원 - 에코스트럭처(EcoStruxure) 기반 통합 운영 통해 스마트한 에너지 전략 수립 가능 슈나이더 일렉트릭이 전력 인프라의 안정성과 효율성을 높이는 차세대 전력 솔...
    Date2025.04.24 Bynewsit Views432
    Read More
  12. 이글루코퍼레이션, 데이터 분석 정확도 높이는 AI 특허 취득

    - 기계학습 모델 성능 및 정확도 높이는 AI 특허 획득 - AI 특허만 34건 … ‘AI 기반 오픈 XDR 구현’ 속도 이글루코퍼레이션은 기계학습 모델의 성능과 정확도 향상을 위한 인공지능(AI) 특허를 취득했다고 밝혔다. 이로써 이글루코퍼레이션은 34개의 AI 특허를...
    Date2025.04.24 Bynewsit Views174
    Read More
  13. 사이냅소프트, 감성 충전 AI 다이어리 앱 사이다(SAIDA) 출시

    - 답답한 마음 시원하게 AI 친구 '사이다'와 톡! - 글쓰기가 어렵다면? AI가 써주는 마법 같은 일기! 도큐먼트 AI 전문 기업 사이냅소프트가 바쁜 일상에 지친 현대인들의 마음을 어루만져 줄 AI 감성 다이어리 앱 ‘사이다(SAIDA)’를 출시하며 디지털 힐링 시...
    Date2025.04.24 Bynewsit Views512
    Read More
  14. 알리바바 클라우드, 최신 오픈소스 영상 생성 모델 ‘Wan2.1-FLF2V-14B’ 공개

    알리바바 클라우드가 새로운 오픈소스 영상 생성 모델 ‘Wan2.1-FLF2V-14B’를 공개했다. 이번 모델은 시작 프레임과 종료 프레임을 입력값으로 활용해, 보다 정교하고 직관적인 영상 생성이 가능하도록 설계되었다. 이를 통해 숏폼 콘텐츠 제작자는 자신만의 AI...
    Date2025.04.24 Bynewsit Views469
    Read More
  15. 마우저, 피닉스컨택트의 ‘카탄(Catan) C1 EN’ 빌딩 자동화 컨트롤러 공급

    마우저 일렉트로닉스는 피닉스컨택트(Phoenix Contact)의 새로운 ‘카탄(Catan) C1 EN’ 빌딩 자동화 컨트롤러를 공급한다고 밝혔다. 카탄 빌딩 자동화 컨트롤러는 병원과 데이터센터, 상업용 빌딩 애플리케이션에서 스마트 룸 자동화를 보다 쉽게 구현할 수 있...
    Date2025.04.24 Bynewsit Views491
    Read More
  16. 파고네트웍스, AI 기반 통합 보안 플랫폼 ‘딥액트(DeepACT)’ 발표

    - 차세대 MDR 전략 선포 AI 기반 위협 헌팅·다크웹 인텔리전스·OT 보안까지 아우르는 글로벌 보안 비전 제시 - 딥액트, AI 기반 위협 식별, 자동화된 사고 대응, 실시간 위협 헌팅, 다크웹 인텔리전스 기반 공격자 탐지 지원 국내 대표 MDR 서비스 기업 파고네...
    Date2025.04.24 Bynewsit Views199
    Read More
  17. ams OSRAM, 초소형 칩 LED 출시…“인이어 기기에서 더욱 정확한 심박수 측정 지원”

    - ams OSRAM의 향상된 칩 LED, 모래알보다 조금 더 큰 크기로 더 높은 밝기 구현 - 인이어 헤드폰이나 스마트 링과 같은 일상적인 기기의 통합에 이상적 웨어러블 기기의 심박수 측정 기능이 지속적으로 향상되고 더욱 정밀해지고 있는 가운데, 지능형 센서 및...
    Date2025.04.23 Bynewsit Views428
    Read More
  18. TI, 차량용 칩 포트폴리오 「LMH13000」 출시…“차량의 자율성과 안전성 향상”

    - 업계 최초의 고속 단일칩 라이다(LiDAR) 레이저 드라이버로 개별 솔루션 대비 더 빠르고 정확하게 물체 감지 가능 - 벌크 탄성파(BAW) 기반의 새로운 고성능 자동차용 클록으로 기존 쿼츠 기반 클록 대비 100배 높은 신뢰성을 제공하며 더욱 안전한 작동 지...
    Date2025.04.23 Bynewsit Views503
    Read More
  19. 안랩, 2025년 1분기 피싱 문자 트렌드 보고서 발표…“공격 유형 1위는 기관 사칭”

    - 올 1분기 탐지한 피싱 문자의 ▲공격 유형 ▲사칭 산업군 ▲피싱 유도 방식을 분석한 결과를 담은 ‘2025년 1분기 피싱 문자 트렌드 보고서’ 발표 - 공격 유형 1위: 기관 사칭 | 사칭 산업군 1위: 정부·공공기관 | 피싱 시도 방식 1위: URL 삽입 안랩이 올 1분기...
    Date2025.04.23 Bynewsit Views188
    Read More
  20. Ceva, 넥스트칩(Nextchip)의 차세대 ADAS 솔루션에 에지 AI NPU 공급

    - 넥스트칩, 차량용 안전 시스템 성능 및 기능 강화를 위해 고성능·고효율 AI 프로세서 ‘뉴프로-M NPU’ 도입 Ceva가 넥스트칩(Nextchip)이 차세대 첨단 운전자 보조 시스템(ADAS) 솔루션에 자사의 뉴프로-M 에지 AI NPU IP를 도입했다고 23일 밝혔다. 넥스트칩...
    Date2025.04.23 Bynewsit Views488
    Read More
Board Pagination Prev 1 ... 64 65 66 67 68 69 70 71 72 73 ... 273 Next
/ 273
CLOSE