问题:国际开源模型竞争加速,开发者更看重“可用、可控、可持续” 随着大模型从通用对话走向复杂任务执行,行业关注点正从“参数规模”转向“工程落地与生态完善”。此背景下,模型在开放平台上的真实调用数据,成为衡量可用性、稳定性与成本效率的重要依据。根据OpenRouter近期对OpenClaw平台的统计,过去30天内,开源基座模型Step 3.5 Flash的tokens调用总量升至第一,并在此前一段时间内多次进入单日调用榜前列。,Kimi K2.5、MiniMax M2.5等模型也跻身榜单头部,显示国内大模型在开放生态中的活跃度持续提升。 原因:开放策略叠加工程能力,推动“用得起来”与“用得放心” 业内人士认为,调用量快速增长通常由三上共同推动: 其一是性能与成本的综合性价比。当模型通用能力、工具调用、长上下文处理等关键指标上表现稳定,同时推理成本更可预期,开发者更愿意将其接入实际应用。 其二是开放程度带来的可控性。Step 3.5 Flash作为面向Agent场景的开源基座模型,不仅提供可直接部署的模型,还开放预训练与中训练权重以及官方训练框架,降低二次开发和定制门槛,便于企业在隐私合规、专有知识注入、行业适配等形成可验证的闭环。 其三是生态配套的完整度。开源不只是“发布模型”,训练框架、权重版本管理、推理部署工具链以及后续数据开放计划,往往决定模型能否持续迭代并形成社区协作。据悉,有关SFT数据开源也在规划中,有望继续提升模型的可复现性与可扩展性。 影响:榜单变化折射全球开源格局调整,国内模型“出海”路径更清晰 从产业层面看,国内模型在OpenClaw日榜、月榜位居前列,说明我国大模型在国际开放平台上的可见度与使用黏性正在提高。对开发者而言,更丰富的高质量开源模型选择,有助于降低试错成本、加快应用开发;对行业而言,权重与训练框架进一步开放,意味着模型能力不再止于“调用接口”,而是在向“可训练、可定制、可治理”的基础设施演进。 同时,调用量领先也意味着接受更强的外部检验。开放平台用户多样,既有研究者和个人开发者,也有初创公司与商业团队。多场景、高并发的真实使用,将更快暴露并推动优化模型在鲁棒性、安全性、工具协同等上的问题。可以预期,未来对模型的评价会更强调“稳定输出、可追溯更新、可解释治理”,而不只是单次测评成绩。 对策:以开放促创新,以治理守底线,打造可持续的开源生态 专家表示,开源热度上升的同时,也需要同步补齐三方面工作: 一是提升评测与透明度。建议围绕多语言、多任务、工具调用安全、对抗样本等维度建立更贴近业务的评价体系,并完善版本变更说明与可复现基线,减少“榜单热、落地冷”的落差。 二是完善安全与合规机制。随着权重与训练框架开放,滥用风险随之上升,应加强安全对齐、内容治理、数据合规说明以及使用边界提示,推动形成更清晰的行业规范。 三是鼓励产业协同与社区共建。通过开放数据计划、插件生态建设、部署工具链优化等方式,让更多开发者统一接口与标准下参与贡献,形成“模型—工具—应用”的正向循环。 前景:Agent化与开源化双轮驱动,全球竞争将进入“生态比拼”阶段 面向未来,大模型发展呈现两条主线:一是从“能对话”走向“能办事”,Agent能力将成为衡量模型价值的重要指标;二是从“封闭能力”走向“开放协作”,开源将继续在科研创新、产业落地和人才培养中发挥关键作用。在这一趋势下,谁能提供更完整的开源要素、更易用的工程工具、更可靠的安全治理,谁就更可能在开放生态中持续获得开发者选择与应用沉淀。 业内人士预计,随着多模型协作、工具调用与工作流编排需求增长,开放平台榜单将更能体现“综合生态实力”。国内大模型若能在持续迭代、社区运营、国际化支持与合规治理上形成体系化能力,有望在全球开源竞争中实现从“单点突破”到“生态引领”的跃升。
Step 3.5 Flash登顶不仅表明了技术与工程能力的竞争力,也反映出中国科技企业在全球人工智能开源生态中的影响力正在上升。随着开源共享成为推动技术演进的重要方式,这场从代码开放开始的变化,或将对未来十年全球数字生态的格局产生深远影响。