投稿
新格
新品测评
机圈热点
企业出海
自贸区观察
创投圈
滚动
专题
榜单
4K高清
图说
商务合作
用户登录
用户注册
首页
7X24
视频
大模型
文娱
酒旅
游戏
科技
汽车
时尚
消费
医药
基金
券商
金融
保险
银行
地产
航空
能源
教育
IPO
首页
7X24
视频
大模型
文娱
酒旅
游戏
科技
汽车
时尚
消费
医药
基金
券商
金融
保险
银行
地产
航空
能源
教育
IPO
首页
>
科技
Step 3.7 Flash冲上海外热榜,智谱、MiniMax同台竞速,阶跃星辰高光背后仍需补齐生态欠账
Step 3.7 Flash冲上海外热榜,智谱、MiniMax同台竞速,阶跃星辰高光背后仍需补齐生态欠账
2026-06-05 科技 来源:每日经济网
1135
摘要:星辰破局关键不在速度而在生态,需警惕“廉价但可替代”陷阱,在同质化中找到“不可替代”的答案。
阶跃星辰的开源模型Step 3.7 Flash发布一周即冲上海外热榜,在Artificial Analysis评测中拿下多个第一,此前还登上OpenRouter Trending全球第二位。然而,在“百模大战”中,智谱、MiniMax等竞争对手相继推出类似产品,阶跃星辰面临挑战。专家指出,阶跃星辰破局关键不在速度而在生态,需警惕“廉价但可替代”陷阱,在同质化中找到“不可替代”的答案。
发布仅一周时间,阶跃星辰最新开源基座模型Step 3.7 Flash冲上海外热榜,拿下了海外大模型评测平台Artificial Analysis多个第一。4日,阶跃星辰在其官方微信公众号公布了这一消息。
《每日经济新闻》记者注意到,在Artificial Analysis的Output Speed(输出速度)榜,Step 3.7 Flash以409 Tokens/s(词元/秒)位列主流模型第一,同时在端到端响应时长(End-to-End Response Time)、智能效率(Intelligence vs.Output Speed)与速度价格比(Output Speed vs.Price)等关键指标上均处于领先位置。此前,在该模型发布2天后,Step 3.7 Flash还登上OpenRouter Trending全球第二位,成为近期全球开发者社区最受关注的开源模型之一。
然而,高光之下,“百模大战”的持续压力同样清晰:Step 3.7 Flash发布同期,与阶跃星辰同为“AI六小龙”的智谱已提前推出同速率高速API(应用程序编程接口);6月1日,MiniMax携百万上下文新一代通用模型M3强势卡位。
快思慢想研究院院长、特邀评论员田丰在接受《每日经济新闻》记者采访时表示,Step 3.7 Flash的推出是阶跃星辰在效率基础设施这一细分赛道建立了可验证的技术信号,但尚未形成可防御的差异化护城河。“相较于智谱、MiniMax等竞争对手,阶跃星辰处于‘滞后’位次。”田丰说,“滞后指的是在产品触达层与开发者生态仍存在系统性空缺,而非模型技术本身的落差。”
Step 3.7 Flash速度抢眼,但规模化生产采用仍存不确定性
“模型竞争正在从单纯追求峰值智能,转向追求单位成本下能够持续交付多少有效智能。高效率Flash(通常指轻量、快速、低成本的模型版本)模型或将不再是旗舰模型的补充,而会成为AI(人工智能)生产化时代最重要的基础模型形态之一。”阶跃星辰如此解释其对Flash模型的押注。
Step 3.7 Flash自5月29日正式发布并开源。据官方介绍,Step 3.7 Flash采用稀疏MoE架构,总参数196B+1.8B(ViT),激活参数仅11B,在模型能力、推理成本与执行效率之间实现更优平衡。与此同时,最高生成速度达400 Tokens/s,适合高频、多轮、低等待的Agent(智能体)应用。
速度确实抢眼,但正如阶跃星辰自述,Step 3.7 Flash追求的不仅仅是“更快”或者“更便宜”,而是成为一款真正“面向生产级Agent的高效率模型”。在阶跃星辰看来,随着Agent从Demo走向真实生产环境,模型不只要回答问题,更要理解复杂输入、主动搜索信息、稳定调用工具,并在多轮任务中持续保持执行轨迹。这对底层基础模型提出了完全不同的要求,同时,模型能力的关键指标正在发生变化。
为此,Step 3.7 Flash面向生产级Agent优化了四大能力:原生多模态理解执行,可识别图表、软件界面、驾驶面板并拆解实操步骤;联网与视觉搜索增强,搭载图像与全网检索能力,不确定信息自主交叉核验;高稳定性工具调用与编排,支持浏览器、终端、办公软件等66类工具连贯调用;全生态适配主流Agent开发框架,兼顾云端商用与本地轻量化部署。
在“好用”这一维度上,阶跃星辰亮出的“成绩单”显示,其中在τ²-bench Telecom(陶平方基准中的电信客服评测领域)的低、中、高三档推理难度下通过率均达到98%以上。
对于这一高分表现,田丰在接受《每日经济新闻》记者采访时解读称,τ²-bench测试(一款面向大语言模型对话智能体的评测基准工具)作为目前最贴近生产级Agent场景的工具调用基准之一,测试的是模型在用户、工具、数据库三方交互中的一致性与抗错能力,98%得分确实具有参考价值。
但他也泼了“一盆冷水”:τ²-bench的测试集中于零售、航空、电信等结构化领域,现实Agent工作流中的长尾场景(非结构化API、动态上下文切换、多工具串联失败恢复)覆盖不足;此外,Step 3.7 Flash虽然在发布2天后登上OpenRouter Trending全球第二位,但数据显示,Step 3.7 Flash发布一周内周Token消耗达566K,属于中等活跃水平,尚不足以判断规模化生产采用。
在他看来,更需要关注的信号是,未来Step 3.7 Flash能否在OpenRouter榜单中稳定排名前列,并维持数月的调用增长曲线。
智谱、MiniMax贴身角逐,阶跃星辰破局关键不在速度而在生态
就在阶跃星辰为Step 3.7 Flash的登顶而收获关注时,智谱与MiniMax在同一时间窗口内相继出牌,持续的“百模大战”压力也映照出阶跃星辰高光之下的阴影。
一方面,推理速度正日益在成为行业标配,而非差异化优势。5月22日,即阶跃星辰发布Step 3.7 Flash一周前,智谱已面向部分企业客户推出GLM-5.1高速API“GLM-5.1-highspeed”,在保留旗舰基座能力的前提下,输出速度同样达到400 Tokens/s。一周时间,两家国产大模型公司均创下几乎同一速度纪录。田丰指出:“这说明400 Tokens/s已成为当前推理系统工程的技术收敛点,而非阶跃星辰的独立优势。”
事实上,速度赛道也从不缺少追逐者,Flash产品路线正在迎来行业的集结。例如,近期受到广泛关注的DeepSeek-V4系列模型,同时推出Pro和Flash两条产品线,两者均支持高达100万Token上下文,旗舰型号主打推理峰值,Flash型号主打效率。
另一方面,阶跃星辰虽锚定生产级Agent推出最新开源基座模型,但其新模型的256K上下文窗口在面对“上下文即竞争力”的长程Agent场景时,容易遭遇结构性天花板。
Step 3.7 Flash发布3天后,MiniMax正式推出新一代通用模型M3,主打前沿Coding(编程)能力、1M超长上下文、原生多模态的完整组合,与阶跃星辰形成泾渭分明的技术路线。田丰认为,MiniMax M3凭借百万级上下文窗口应对复杂任务上限的瓶颈,依靠“能力完整性”支撑更高API单价;阶跃星辰则坚持“单位成本下的有效智能”,锚定高频轻量化Agent基础设施。前者的能力峰值路线争夺复杂任务定价权,后者的速度路线锁定基础设施频率。
“两条路线不存在零和竞争,而是各自对应Agent生产化的不同价值层。但阶跃星辰更要警惕‘廉价但可替代’的陷阱:速度与成本的优势可以为阶跃星辰赢得大量中低复杂度Agent场景,但这类场景的迁移成本也低,护城河易被侵蚀。”田丰说。
评论区
登录
注册
发表评论
关于我们
版权声明
联系我们
工作机会
友情链接
服务协议
京ICP备2025130743号
Copy Right © 2025 www.demirror.cn All Rights Reserved