国际科研团队突破人工智能推理瓶颈 首次提出“思维可继承”训练新范式

随着大模型在解题、检索与决策等场景的广泛应用,推理能力成为衡量模型性能的关键指标。然而,业界长期面临一个突出问题:模型在单次作答中可能给出正确答案,但多次生成的推理路径不稳定,可复现性较差,尤其在题型变化或难度增加时表现波动明显。对于金融风控、工程计算、科学研究等需要严谨性的领域,这种“偶然正确”带来的风险不容忽视。 研究人员指出,传统强化学习方法通常只关注最终答案是否正确,而忽略了推理过程的可解释性和一致性。这可能导致模型在训练中形成“捷径”——在某些样本上有效,但难以推广到更广泛场景。此外,追求多样化的生成结果时,这些捷径还可能引发不同解答之间的矛盾。尤其在数学推理等需要逐步论证的任务中,仅以最终正确为目标,难以保证中间步骤的质量和稳定性。 为解决该问题,韩国科学技术院与微软研究院团队在预印本平台(arXiv:2602.08489v1)提出“推理可传递性”这一新指标:当一个模型提供部分推理过程后,另一模型应能基于此继续推导并得出正确结论。这一指标要求推理路径更加清晰、可延续,从而减少对单一模型内部“隐性技巧”的依赖,提升推理的稳健性和可迁移性。该思路尤其适用于多人协作、跨系统调用、链式工具使用等需要复用和审计推理过程的场景。 基于这一理念,研究团队设计了“可传递奖励强化学习”方法。在传统“验证式奖励”(仅评估最终答案)的基础上,新增“传递奖励”:训练时截取模型的中间推理片段,交由另一模型续写;若续写模型能据此得出正确答案,则生成模型获得额外奖励,反之奖励降低。这一机制将训练目标从“做对答案”扩展为“讲清思路”,促使模型输出更连贯、可延续的推理过程。 实验结果显示,该方法在多个数学推理数据集上表现优异:在MATH-500等中等难度任务中,多样本投票准确率从82.2%提升至84.2%,平均准确率从71.0%升至77.0%;在更具挑战性的AMC23竞赛题数据集上,多样本投票准确率从61.7%升至67.5%;在高难度AIME2024任务上,准确率从16.7%提升至21.1%。此外,该方法在达到相近性能时,所需训练步数仅为传统方案的40%,显著降低了算力和时间成本。业内人士认为,这一研究为提升模型的“可复现推理”和“跨模型协作推理”提供了新思路,未来可拓展至代码推理、科学计算等复杂任务,并与安全对齐、可解释评测等领域形成互补。不过,作为预印本成果仍需更多同行评议和跨场景验证,特别是在开放域问题、真实业务数据和多轮交互中的稳定性表现上需更观察。

这项研究表明了国际科技界对人工智能基础理论的深入探索。通过引入“可传递性”这个新维度,团队不仅解决了现有模型的现实问题,也为人工智能的长期发展提供了新方向。随着方法的健全,人工智能的推理能力将更加稳定可靠,从而推动其在科学研究和工程应用等领域的深入发展。