前阿里技术负责人林俊旸首次发声:解析大模型技术路线转型的关键挑战

问题——从“推理更强”到“会行动”的新命题 近期大模型产业热度持续,围绕推理能力的训练方法、算力投入与产品化呈现成为焦点;林俊旸文章中提出,行业正在经历从“训练模型”向“训练智能体”演进:模型不再只是在文本空间里把答案写得更像“经过思考”,而是为了完成任务而规划、调用工具、与外部环境交互,并在反馈中不断修正路线。换言之,下一阶段的核心不只是让模型“想得更久”,而是让其“做得更对、做得更稳”。 原因——数据、反馈与基础设施决定“合并”难度 文章回顾推理模型发展指出,一批推理模型的突破使业界更清晰地认识到:若要在语言模型中规模化应用强化学习,必须拥有确定性、稳定、可扩展的反馈信号。数学、代码、逻辑等可验证领域之所以重要,在于奖励信号能围绕“正确性”而非“合理性”给出更强约束,从而提升训练效率与可控性。 更关键的是,强化学习不再是监督微调后的轻量补丁,而逐步成为系统工程:需要大规模轨迹生成、高吞吐验证体系、稳定策略更新以及高效采样与调度能力。推理能力的“跃迁”,既取决于训练方法,也取决于工程基础设施的成熟度与成本结构。 针对业内长期讨论的“将思考模式与指令模式合并”的设想,林俊旸坦言,理念看似顺畅,真正难点集中在数据与训练组织方式:既要让模型能在不同任务上自适应选择推理强度,又要避免把“冗长思考”训练成机械模板;既要提升后训练数据的质量与多样性,又要在模型合并、能力对齐、成本与迭代速度之间找到平衡。若处理不当,可能出现能力分布不均、泛化不稳定或对齐与可用性相互牵制等问题。 影响——产业竞争从“模型参数”走向“系统能力” 业内分析认为,这类反思折射出大模型产业的竞争逻辑变化:一上,“扩展预训练”的边际收益下降,“扩展推理后训练”成为新增长点;另一方面,当模型开始以智能体形态进入生产场景,影响成败的因素将更像一套综合系统——包括工具链、评测体系、安全防护、可验证反馈机制与线服务闭环。 文章同时提示风险:工具越强,模型越有用,但也会放大“奖励破解”等潜在攻击面。在具备工具调用、任务执行能力的系统中,若反馈机制设计不严、环境约束不足或评测标准偏弱,模型可能在优化目标时走捷径,产生看似完成任务却偏离真实需求的行为,带来安全、合规与质量隐患。这对企业在产品化落地、政企应用与关键行业部署中提出更高要求。 对策——把“环境”作为核心资产,强化训练—服务一体化 针对下一阶段如何构建竞争力,林俊旸提出,环境本身正在成为一流研究对象。在智能体时代,与其单纯追求数据“更杂更多”,不如更关注环境“更真更可控”:让任务空间、工具接口、验证器、日志与回放、风险边界等构成可迭代的训练与评测场。通过可验证反馈、稳定约束与高质量交互,推动模型在真实任务上形成可靠能力。 同时,文章判断未来优势将更多来自三上:其一,更好的环境与更完备的验证体系;其二,训练与服务更紧密的集成,把线上真实使用中的反馈、失败案例与需求变化纳入闭环;其三,更强的框架工程能力,在效率、稳定、可控和安全之间形成可复制的工程体系。对企业而言,这意味着组织与投入可能从单点模型训练,转向“模型—工具—环境—产品”一体化协同。 前景——智能体落地将推动“硬工程”成为主战场 面向未来,业内普遍预计,推理能力仍将迭代,但竞争主战场将更多转向可规模化落地的工程体系:谁能构建可验证、可回放、可审计的任务环境,谁能把训练、评测与服务打通,谁就更可能在行业应用中形成持续优势。随着智能体进入办公协作、研发辅助、数据分析、运营决策等场景,评测标准也将从单次问答转向长链路任务完成率、错误代价控制与安全边界稳定性。 因此,如何以更低成本获得高质量反馈、如何处理工具调用带来的安全风险、如何兼顾开放能力与合规要求,将成为影响产业格局的重要变量。

从推理走向智能体,改变的不只是模型的“思考方式”,也包括产业的组织方式与工程范式。把模型放回真实世界的约束中,用可验证反馈、可迭代环境和可闭环体系推动能力进化,可能成为下一轮竞争的关键。对行业而言,谁能率先把“能用、好用、可控”的系统工程打牢,谁就更可能在新阶段掌握主动。