在这些场景中,提供完整的价值离不开对不同模态信息的有效处理、对多种模态信息的融合分析和判断。只是在过去的 AI 1.0 时代和今天,构建场景能力的方式发生了变迁。在过去,每个 AI 模型智能提供一个环节的能力,最终由一个复杂的业务系统串联起来;在今天,多模态的智能体可以自主而灵活地运用各种能力,提供端到端的整体价值。因此,从商业应用的角度,多模态也是我们的必然选择。
在大模型时代早期,尺度定律在很大程度上驱动着模型能力的竞争和发展,模型规模曾突破万亿。Google 早在 2021 年就发表了万亿参数的 Switch Transformer,这也是较早尝试把 MoE 和 Transformer 结合的工作。但是,业界很早就观察到模型参数量并不是模型能力的唯一要素。DeepMind 在 2022 年的一篇论文中就基于详尽的实验分析指出:模型参数量和训练数据量应该同步增长(“for compute-optimal training, the model size and the number of training tokens should be scaled equally”)。
常规模型和慢思考的统一。带有慢思考过程的推理模型相比于普通模型在推理性能上有代差级别的显著进步,在近几个月成为领域竞争的焦点。但是它们在应用中也暴露出一些重要问题,比如冗长且发散的思维链、更高的幻觉率、以及可靠性和可控性的挑战等。我们认为,目前常规模型和推理模型分立的情况是 AI 进入推理阶段早期的一个暂时状态。一个具有较高智能水平的智能体(比如“人”)应该能根据情况需要,比如问题的挑战性以及是否有充足的思考时间,来自主选择不同的思考长度。而且,一个良好的学习范式应该能让不同条件下的思考能力都得到平衡的提升。
在三位一体战略和技术与业务正向循环的驱动下,我们过去一年取得了很多进展。一方面,我们的基础技术体系形成了更强的创新势头,在业内率先取得一系列创新成果:比如原生融合训练,图文交错思维链、多模态融合强化学习、无限时长的视频交互记忆、以及开悟世界模型;另一方面,在技术创新的支撑下,商业化局面正在迅速打开,生产力 AI 的性能持续保持领先,装机量正在从百万量级走向千万量级;交互 AI 广泛落地各种新型智能硬件和机器人(18.910, 0.05, 0.27%),正在重塑用户和世界交互的形态。商汤在生成式 AI 板块业绩的持续高速成长充分显示了这些成果所带来的商业回报。