前阿里技术负责人林俊旸首次发声：解析大模型技术路线转型的关键挑战

问题——从“推理更强”到“会行动”的新命题近期大模型产业热度持续，围绕推理能力的训练方法、算力投入与产品化呈现成为焦点；林俊旸文章中提出，行业正在经历从“训练模型”向“训练智能体”演进：模型不再只是在文本空间里把答案写得更像“经过思考”，而是为了完成任务而规划、调用工具、与外部环境交互，并在反馈中不断修正路线。换言之，下一阶段的核心不只是让模型“想得更久”，而是让其“做得更对、做得更稳”。原因——数据、反馈与基础设施决定“合并”难度文章回顾推理模型发展指出，一批推理模型的突破使业界更清晰地认识到：若要在语言模型中规模化应用强化学习，必须拥有确定性、稳定、可扩展的反馈信号。数学、代码、逻辑等可验证领域之所以重要，在于奖励信号能围绕“正确性”而非“合理性”给出更强约束，从而提升训练效率与可控性。更关键的是，强化学习不再是监督微调后的轻量补丁，而逐步成为系统工程：需要大规模轨迹生成、高吞吐验证体系、稳定策略更新以及高效采样与调度能力。推理能力的“跃迁”，既取决于训练方法，也取决于工程基础设施的成熟度与成本结构。针对业内长期讨论的“将思考模式与指令模式合并”的设想，林俊旸坦言，理念看似顺畅，真正难点集中在数据与训练组织方式：既要让模型能在不同任务上自适应选择推理强度，又要避免把“冗长思考”训练成机械模板；既要提升后训练数据的质量与多样性，又要在模型合并、能力对齐、成本与迭代速度之间找到平衡。若处理不当，可能出现能力分布不均、泛化不稳定或对齐与可用性相互牵制等问题。影响——产业竞争从“模型参数”走向“系统能力” 业内分析认为，这类反思折射出大模型产业的竞争逻辑变化：一上，“扩展预训练”的边际收益下降，“扩展推理后训练”成为新增长点；另一方面，当模型开始以智能体形态进入生产场景，影响成败的因素将更像一套综合系统——包括工具链、评测体系、安全防护、可验证反馈机制与线服务闭环。文章同时提示风险：工具越强，模型越有用，但也会放大“奖励破解”等潜在攻击面。在具备工具调用、任务执行能力的系统中，若反馈机制设计不严、环境约束不足或评测标准偏弱，模型可能在优化目标时走捷径，产生看似完成任务却偏离真实需求的行为，带来安全、合规与质量隐患。这对企业在产品化落地、政企应用与关键行业部署中提出更高要求。对策——把“环境”作为核心资产，强化训练—服务一体化针对下一阶段如何构建竞争力，林俊旸提出，环境本身正在成为一流研究对象。在智能体时代，与其单纯追求数据“更杂更多”，不如更关注环境“更真更可控”：让任务空间、工具接口、验证器、日志与回放、风险边界等构成可迭代的训练与评测场。通过可验证反馈、稳定约束与高质量交互，推动模型在真实任务上形成可靠能力。同时，文章判断未来优势将更多来自三上：其一，更好的环境与更完备的验证体系；其二，训练与服务更紧密的集成，把线上真实使用中的反馈、失败案例与需求变化纳入闭环；其三，更强的框架工程能力，在效率、稳定、可控和安全之间形成可复制的工程体系。对企业而言，这意味着组织与投入可能从单点模型训练，转向“模型—工具—环境—产品”一体化协同。前景——智能体落地将推动“硬工程”成为主战场面向未来，业内普遍预计，推理能力仍将迭代，但竞争主战场将更多转向可规模化落地的工程体系：谁能构建可验证、可回放、可审计的任务环境，谁能把训练、评测与服务打通，谁就更可能在行业应用中形成持续优势。随着智能体进入办公协作、研发辅助、数据分析、运营决策等场景，评测标准也将从单次问答转向长链路任务完成率、错误代价控制与安全边界稳定性。因此，如何以更低成本获得高质量反馈、如何处理工具调用带来的安全风险、如何兼顾开放能力与合规要求，将成为影响产业格局的重要变量。

从推理走向智能体，改变的不只是模型的“思考方式”，也包括产业的组织方式与工程范式。把模型放回真实世界的约束中，用可验证反馈、可迭代环境和可闭环体系推动能力进化，可能成为下一轮竞争的关键。对行业而言，谁能率先把“能用、好用、可控”的系统工程打牢，谁就更可能在新阶段掌握主动。