刚刚,这款国产模型登顶 Artificial Analysis 输出速度榜榜首

来源: InfoQ - AI&大模型

原文

全球权威大模型评测平台 Artificial Analysis 最新Output Speed榜单显示,阶跃星辰(StepFun)最新开源基座模型Step 3.7 Flash以409 tokens/s 的输出速度位列主流模型第一,同时在端到端响应时长(End-to-End Response Time)、智能效率(Intelligence vs. Output Speed)与速度价格比(Output Speed vs. Price)等关键指标上均处于靠前位置。

该图对比模型为Artificial Analysis官方默认选项

该图为 Step 3.7 Flash 与其他同量级主流 Flash 模型进行对比

该图对比模型为Artificial Analysis官方默认选项

随着Agent应用逐渐从演示阶段走向生产环境,大模型竞争的评价标准也在发生变化。

过去,行业更关注模型在基准测试中的分数,以及数学、代码、推理等单项能力表现。但在Agent场景中,一个任务往往涉及网页浏览、信息检索、文档处理、多轮推理、工具调用等多个环节,模型需要在较长时间内持续运行,并与外部系统频繁交互。此时,决定用户体验和部署成本的因素,已经不再只是模型能力本身,还包括响应速度、推理成本、系统吞吐量以及稳定性等工程指标。

换句话说,Agent时代考验的不仅是模型能否完成任务,更是完成任务的效率和成本。

从这一角度看,近期发布的Step 3.7 Flash更像是一款面向 Agent 场景优化的模型。公开测试数据显示,其重点并非追求极限能力,而是在模型性能、响应速度和推理成本之间寻求平衡。这类优化方向与当前行业需求高度相关:对于需要高频调用、长时间运行的Agent系统而言,单次推理成本和响应时延往往比个别基准测试成绩更直接影响实际落地效果。

事实上,这也是当前全球大模型发展的一个共同趋势。无论是OpenAI、Anthropic还是Google,近一年来发布的新模型都在强调推理效率、实时交互能力以及Agent执行能力,而不仅仅是参数规模或测试集成绩。

模型竞争正在从“谁更聪明”逐步转向“谁能以更低成本完成更多真实任务”。

从社区反馈来看,Step 3.7 Flash发布后获得了不少开发者关注,在x上,有开发者表示,“这就是为什么对于真正的人工智能产品而言,速度正变得与智能同等重要。对于智能任务而言,速度快、开放、服务成本低且性能稍弱的模型,可能比速度太慢或运行成本太高而无法大规模运行的智能模型更有用。”

对于中国开源模型生态而言,这类模型的意义或许不在于某一次榜单排名,而在于参与了新一轮Agent基础设施能力的竞争。随着企业开始部署越来越多具备自主执行能力的Agent系统,模型的成本效率、工程可用性以及生态兼容性,正在成为与模型能力同样重要的指标。

未来决定Agent能否大规模落地的,或许不是最强模型,而是能够在智能、速度和成本之间取得平衡的模型。

参考链接:

https://x.com/ArtificialAnlys/status/2062381047212638697