- 1조 개 이상 파라미터 기반 강화학습으로 추론·지식 처리 성능 대폭 강화

- 적응형 도구 활용과 테스트 단계 확장으로 복합 추론·에이전트 역량 고도화

 

알리바바, 최신 추론 모델 ‘Qwen3-Max-Thinking’ 공개.png

알리바바가 최신 추론 모델 ‘Qwen3-Max-Thinking’을 공개하며 초대규모 강화학습 기반 AI 경쟁력 강화에 나섰다. 알리바바에 따르면 Qwen3-Max-Thinking1조 개 이상의 파라미터로 모델 규모를 확장하고 강화학습을 적용해 사실적 지식 처리, 복합 추론, 지시 수행, 인간 선호도 정렬, 에이전트 기능 등 핵심 영역 전반에서 성능을 끌어올렸다.

 

19개 주요 벤치마크서 최신 초거대 모델과 경쟁력 입증

Qwen3-Max-Thinking은 총 19개 주요 벤치마크 평가에서 Claude Opus 4.5, Gemini 3 Pro, GPT-5.2-Thinking-xhigh 등 최신 고성능 추론 모델들과 비교해 경쟁력 있는 선도 성능을 기록했다. 과학·수학·코딩 문제 해결은 물론, 검색 도구를 활용해 다양한 분야의 전문가급 질문을 해결하는 평가 항목에서도 높은 정확도와 일관성을 보이며 범용 추론 모델로서의 완성도를 입증했다.

 

적응형 도구 활용으로 검색·코드 실행을 자동 판단

Qwen3-Max-Thinking의 핵심 차별점 중 하나는 적응형 도구 활용(Adaptive Tool-use) 기능이다. 모델은 대화 맥락에 따라 검색(Search), 메모리(Memory), 코드 인터프리터(Code Interpreter)를 자동으로 선택·활용한다. 기존처럼 사용자가 직접 도구를 지정할 필요 없이, 모델이 문제 해결에 필요한 수단을 스스로 판단해 호출함으로써 복잡한 추론 과정을 보다 효율적으로 수행한다. 이 기능은 초기 미세 조정 이후, 규칙 기반과 모델 기반 피드백을 결합한 다중 과제 학습을 통해 구현됐다. 검색과 메모리 기능은 환각을 줄이고 실시간 정보 접근성을 높이며, 코드 인터프리터는 계산이나 실행 기반 추론이 필요한 복합 문제 해결을 지원한다.

 

경험 누적형 테스트 단계 확장으로 추론 효율 개선

알리바바는 고도화된 테스트 단계 확장(Test-time Scaling) 기법도 적용했다. 특히 경험 누적형 다회차 테스트 단계 확장 전략을 도입해, 이전 상호작용에서 도출된 핵심 정보를 정제·활용하도록 설계했다. 이를 통해 이미 확인된 결론을 반복적으로 재추론하지 않고, 남아 있는 불확실성 해결에 집중할 수 있도록 했다. 그 결과 동일하거나 유사한 토큰 비용 환경에서도 병렬 샘플링 및 집계 방식 대비 지속적으로 높은 추론 성능과 문맥 효율을 기록했다.

 

Qwen Chat·모델 스튜디오 통해 제공

Qwen3-Max-Thinking은 현재 Qwen Chat을 통해 이용할 수 있으며, 모델 API는 알리바바의 생성형 AI 개발 플랫폼 모델 스튜디오(Model Studio)’에서 제공된다.  알리바바는 이번 모델 공개를 통해 초대규모 파라미터 기반 추론 모델 경쟁에서 기술적 존재감을 강화하고, 에이전트형 AI와 복합 문제 해결 중심의 차세대 활용 시나리오를 본격 확대한다는 전략이다.

 

#알리바바 #Qwen3MaxThinking #추론모델 #강화학습 #생성형AI #에이전트AI #초거대AI

 

 
?

List of Articles
번호 분류 제목 글쓴이 날짜 조회 수
2267 시마AI, 스티가와 피지컬 AI 전략 파트너십 체결…로봇 잔디깎이에 엣지 AI 통합 - 초저지연·저전력 MLSoC 기반 실시간 의사결정 구현…자율 정원 장비 아키텍처 확장 시마AI가 유럽 정원용 기계·장비 제조 기업 스티가와 전략적 파트너십을 체결... file newsit 2026.02.26 64
2266 그룹아이비, ‘클라우드 보안 상태 관리(CSPM)’ 솔루션 출시…URP에 클라우드 보안 상태 관리 통합 - 설정 오류 자동 탐지·규정 준수 모니터링 제공…ASM·위협 인텔리전스 결합 그룹아이비가 통합 리스크 플랫폼(URP)에 ‘클라우드 보안 상태 관리(CSPM)’ 솔루션을 ... file newsit 2026.02.25 80
2265 세일즈포스, “AI 경쟁은 데이터 실행력”…84% 공감, 61%는 성과 연결 실패 - 국내 기업 84% 데이터 기반이 핵심이라 인식…글로벌 CIO는 AI보다 데이터 인프라에 4배 투자 세일즈포스가 한국 기업 500곳을 포함한 전 세계 약 8,000개 기업... file newsit 2026.02.25 55
2264 슈나이더 일렉트릭 코리아, 산업 자동화·스마트 에너지·BESS 통합 인프라 공개…현장 지능형 구조로 전력 밀도 대응 - 설비 제어부터 전력 보호·에너지 저장까지 하나의 운영 체계로 연결 - One Solution Provider 전략 본격화 슈나이더 일렉트릭 코리아가 산업 자동화와 스마트 ... file newsit 2026.02.25 101
2263 플로우, 프로젝트 설계 ‘AI 에이전트’ 출시…기업용 협업을 실행 구조 중심으로 전환 - 초기 기획 시간 80% 단축, 생산성·비용·보안 3대 과제 동시 대응 마드라스체크가 협업툴 ‘플로우’에 프로젝트 구조를 자동 설계하는 AI 에이전트를 출시하며, ... file newsit 2026.02.24 83
2262 스노우플레이크 코리아, ‘데이터 포 브렉퍼스트’ 개최…엔터프라이즈 AI 플랫폼 전략 공개 - 3월 19일 앰배서더 서울 풀만서 열려, 글로벌 제품 총괄 방한 기조연설 스노우플레이크 코리아가 3월 19일 앰배서더 서울 풀만 호텔 그랜드볼룸에서 연례 컨퍼... file newsit 2026.02.24 110
2261 다쏘시스템, AI ‘버추얼 동반자’ 공개…3D익스피리언스서 산업 공동 창작 체계 제시 - 아우라·레오·마리 통해 설계·엔지니어링·과학 전반 에이전틱 협업 구현 다쏘시스템이 3D익스피리언스 플랫폼에서 산업 전반의 설계·엔지니어링·과학 업무를 지... file newsit 2026.02.24 108
2260 윈드리버, MWC 바르셀로나서 AI-RAN 기반 엣지 AI 전략 공개…통신 인프라 운영 효율화 제시 - RAN·코어·IT 통합 오케스트레이션 구조로 5G 네트워크 현대화 가속 윈드리버가 스페인 바르셀로나에서 열리는 MWC Barcelona에서 AI-RAN 기반 엣지 AI 전략을 ... file newsit 2026.02.24 99
2259 엔비디아, NVFP4로 저정밀 AI 훈련·추론 경쟁 본격화…MLPerf서 FP8 대비 1.9배 - 블랙웰 울트라 512 GPU로 라마 3.1 405B 64.6분…정확도 유지하며 처리량·전력 효율 동시 개선 엔비디아가 4비트 부동소수점 정밀도 ‘NVFP4’를 앞세워 저정밀 AI... file newsit 2026.02.23 119
2258 엔비디아, 블랙웰 울트라로 에이전틱 AI 추론 경쟁 본격화…성능 50배↑·토큰 비용 35배↓   - GB300 NVL72, 호퍼 대비 메가와트당 처리량 최대 50배 향상…저지연 환경 100만 토큰당 비용 35배 절감 엔비디아가 차세대 블랙웰 울트라 플랫폼을 공개하고 에... file newsit 2026.02.23 101
목록
Board Pagination Prev 1 ... 3 4 5 6 7 8 9 10 11 12 ... 234 Next
/ 234
CLOSE