投稿
新格
新品测评
机圈热点
企业出海
自贸区观察
创投圈
滚动
专题
榜单
4K高清
图说
商务合作
首页
7X24
视频
大模型
文娱
酒旅
游戏
科技
汽车
时尚
消费
医药
基金
券商
金融
保险
银行
地产
航空
能源
教育
IPO
首页
7X24
视频
大模型
文娱
酒旅
游戏
科技
汽车
时尚
消费
医药
基金
券商
金融
保险
银行
地产
航空
能源
教育
IPO
首页
>
最新消息
阿里开源全模态大模型Qwen3-Omni,狂揽32项开源最佳表现
阿里开源全模态大模型Qwen3-Omni,狂揽32项开源最佳表现
2025-10-07 最新消息 来源:另镜大模型
4369
摘要:作为全模态模型,Qwen3-Omni能够实现全模态输入和全模态输出。
9月24日,2025年云栖大会开幕,阿里巴巴发布通义全模态预训练大模型Qwen3-Omni系列模型。通过引入多种架构升级和技术迭代,Qwen3-Omni系列的模型表现和效率大幅提升。在36个音视频基准测试中,22项达到SOTA水平,其中32项取得开源模型最佳效果。语音识别、音频理解与语音对话能力可比肩Gemini 2.5-Pro。
作为全模态模型,Qwen3-Omni能够实现全模态输入和全模态输出。类似于人类婴儿一出生就全方位感知世界,Qwen3-Omni一开始就加入了“听”、“说”、“写”多模态混合训练。在预训练过程中,Qwen3-Omni采用了混合单模态和跨模态数据。此前,模型在混合训练后,各个功能会相互掣肘甚至降智,比如音频理解能力提升,文字理解能力反而降低了。但Qwen3-Omni在实现强劲音频与音视频能力的同时,单模态文本与图像性能均保持稳定,这是业内首次实现这一训练效果。
Qwen3-Omni的优异表现源于多种架构升级。Qwen2.5-Omni采用了双核架构Thinker-Talker,让大模型拥有了人类的“大脑”和“发声器”。Qwen3-Omni的Thinker-Talker架构进一步加强,结合AuT预训练构建强通用表征,配合多码本设计,响应延迟压缩至最低。相较于半年前推出的Qwen2.5-Omni,Qwen3-Omni的交互速度更快,纯模型端到端音频对话延迟低至211ms,视频对话延迟低至507ms;支持的语言更多,包括19种语言音频输入、10种语言输出。
作为一款“会说话”的模型,Qwen3-Omni应用场景广泛,未来可部署于车载、智能眼镜和手机等。用户还可设定个性化角色、调整对话风格,打造专属的个人IP。相较于传统的录音转文字软件,Qwen3-Omni能够处理长达 30 分钟的音频文件,无需切割音频,即可精准识别语音、深度理解内容。
目前,Qwen3-Omni系列已开源三款模型:Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking 和 Qwen3-Omni-30B-A3B-Captioner,值得关注的是,擅长音频描述的模型Qwen3-Omni-30B-A3B-Captioner为全球首次开源的通用音频caption模型,可以清晰描述用户输入音频的特征,填补了开源社区空白。
Qwen3-Omni现已在Hugging Face和ModelScope上开放,用户可访问Qwen Chat免费体验Qwen3-Omni-Flash。
【图说】:Qwen3-Omni测评分数
关于我们
版权声明
联系我们
工作机会
友情链接
服务协议
京ICP备2025130743号
Copy Right © 2025 www.demirror.cn All Rights Reserved