投稿
新格
新品测评
机圈热点
企业出海
自贸区观察
创投圈
滚动
专题
榜单
4K高清
图说
商务合作
首页
7X24
视频
大模型
文娱
酒旅
游戏
科技
汽车
时尚
消费
医药
基金
券商
金融
保险
银行
地产
航空
能源
教育
IPO
首页
7X24
视频
大模型
文娱
酒旅
游戏
科技
汽车
时尚
消费
医药
基金
券商
金融
保险
银行
地产
航空
能源
教育
IPO
首页
>
最新消息
阿里发布Qwen3-Max,性能超GPT5,跻身全球前三
阿里发布Qwen3-Max,性能超GPT5,跻身全球前三
2025-10-09 最新消息 来源:另镜大模型
7461
摘要:Qwen3-Max为通义千问家族中最大、最强的基础模型
【另镜网】9月24日,2025云栖大会开幕,阿里通义旗舰模型Qwen3-Max重磅亮相,性能超过GPT5、Claude Opus 4等,跻身全球前三。Qwen3-Max包括指令(Instruct)和推理(Thinking)两大版本,其预览版已在 Chatbot Arena 排行榜上位列第三,正式版性可望再度实现突破。
Qwen3-Max为通义千问家族中最大、最强的基础模型。该模型预训练数据量达36T tokens,总参数超过万亿,拥有极强的Coding编程能力和Agent工具调用能力。在大模型用Coding解决真实世界问题的SWE-Bench Verified测试中,Instruct版本斩获69.6分,位列全球第一梯队;在聚焦Agent工具调用能力的Tau2-Bench测试中,Qwen3-Max取得突破性的74.8分,超过Claude Opus4和DeepSeek-V3.1。
【图说】:Qwen3-Max-Instrurct测评分数
Qwen3-Max的推理增强版本Qwen3-Max-Thinking-Heavy也展现出非凡性能,结合工具调用和并行推理技术,其推理能力创下新高,尤其在聚焦数学推理的AIME 25和HMMT测试中,均达到突破性的满分100分,为国内首次。Qwen3-Max推理模型之所以能够取得优异成绩,原因在于大模型在解数学题时懂得调动工具,能够写代码做题,同时,增加测试时的计算资源,也让模型表现变得更好。
大模型预训练原理Scaling Law(规模化法则)认为,持续地增长数据和参数规模,是通向 AGI 的可能路径之一。由于自然数据的数量有限,当前有部分学者认为预训练的Scaling Law即将逼近上限,而Qwen3-Max的性能突破显示,继续增大数据、模型参数,依然能锻造出更强的模型,给予了大家更多的信心。目前,通义千问系列模型已经实现从0.5B到超万亿的全尺寸覆盖,包含三百多个大模型,可满足不同场景的需求。
即日起,用户可在通义千问QwenChat上免费体验Qwen3-Max,也可通过阿里云百炼平台调用API服务。
关于我们
版权声明
联系我们
工作机会
友情链接
服务协议
京ICP备2025130743号
Copy Right © 2025 www.demirror.cn All Rights Reserved