国际科研团队突破人工智能推理瓶颈首次提出“思维可继承”训练新范式

随着大模型在解题、检索与决策等场景的广泛应用，推理能力成为衡量模型性能的关键指标。然而，业界长期面临一个突出问题：模型在单次作答中可能给出正确答案，但多次生成的推理路径不稳定，可复现性较差，尤其在题型变化或难度增加时表现波动明显。对于金融风控、工程计算、科学研究等需要严谨性的领域，这种“偶然正确”带来的风险不容忽视。研究人员指出，传统强化学习方法通常只关注最终答案是否正确，而忽略了推理过程的可解释性和一致性。这可能导致模型在训练中形成“捷径”——在某些样本上有效，但难以推广到更广泛场景。此外，追求多样化的生成结果时，这些捷径还可能引发不同解答之间的矛盾。尤其在数学推理等需要逐步论证的任务中，仅以最终正确为目标，难以保证中间步骤的质量和稳定性。为解决该问题，韩国科学技术院与微软研究院团队在预印本平台（arXiv:2602.08489v1）提出“推理可传递性”这一新指标：当一个模型提供部分推理过程后，另一模型应能基于此继续推导并得出正确结论。这一指标要求推理路径更加清晰、可延续，从而减少对单一模型内部“隐性技巧”的依赖，提升推理的稳健性和可迁移性。该思路尤其适用于多人协作、跨系统调用、链式工具使用等需要复用和审计推理过程的场景。基于这一理念，研究团队设计了“可传递奖励强化学习”方法。在传统“验证式奖励”（仅评估最终答案）的基础上，新增“传递奖励”：训练时截取模型的中间推理片段，交由另一模型续写；若续写模型能据此得出正确答案，则生成模型获得额外奖励，反之奖励降低。这一机制将训练目标从“做对答案”扩展为“讲清思路”，促使模型输出更连贯、可延续的推理过程。实验结果显示，该方法在多个数学推理数据集上表现优异：在MATH-500等中等难度任务中，多样本投票准确率从82.2%提升至84.2%，平均准确率从71.0%升至77.0%；在更具挑战性的AMC23竞赛题数据集上，多样本投票准确率从61.7%升至67.5%；在高难度AIME2024任务上，准确率从16.7%提升至21.1%。此外，该方法在达到相近性能时，所需训练步数仅为传统方案的40%，显著降低了算力和时间成本。业内人士认为，这一研究为提升模型的“可复现推理”和“跨模型协作推理”提供了新思路，未来可拓展至代码推理、科学计算等复杂任务，并与安全对齐、可解释评测等领域形成互补。不过，作为预印本成果仍需更多同行评议和跨场景验证，特别是在开放域问题、真实业务数据和多轮交互中的稳定性表现上需更观察。

这项研究表明了国际科技界对人工智能基础理论的深入探索。通过引入“可传递性”这个新维度，团队不仅解决了现有模型的现实问题，也为人工智能的长期发展提供了新方向。随着方法的健全，人工智能的推理能力将更加稳定可靠，从而推动其在科学研究和工程应用等领域的深入发展。

国际科研团队突破人工智能推理瓶颈 首次提出“思维可继承”训练新范式

国际科研团队突破人工智能推理瓶颈首次提出“思维可继承”训练新范式