乔治华盛顿大学提出ARISE系统破解数学推理“遗忘”难题推动模型持续进化

(问题)随着智能技术文本生成、代码辅助等领域能力快速提升,复杂数学推理仍普遍被认为是关键瓶颈之一;涉及的系统往往能在单次任务中给出看似合理的推导,但在跨题型迁移、长链条证明和高难度竞赛题上稳定性不足。研究团队指出,重要原因在于:不少现有方法把每次解题当作一次性过程,缺少将有效策略沉淀为可复用“经验”的机制,导致遇到相似问题仍要从头摸索,表现出类似“遗忘”的现象。 (原因)从技术路径看,传统推理系统更侧重“当下求解”,常依赖外部提示、临时检索或固定模板完成推导;策略选择与更新多由预设规则驱动,难以形成可持续演进的内部技能体系。此外,评价与训练目标往往以“答案对错”为主,缺少对“是否高效调用已有方法、是否形成可迁移技巧”的激励,导致策略难以积累、也难以自我改进。在数学任务中此不足更为突出:题目表面差异大、隐含结构强、推理链条长,若无法对可复用的中间技能进行抽象与保存,系统就容易在复杂场景中反复试错、推导漂移。 (对策)针对上述痛点,研究团队提出ARISE(Agent Reasoning via Intrinsic Skill Evolution)系统,核心思路是在推理过程中引入“可生长的技能记忆”。 一是构建分层“技能图书馆”,用于存储与提炼解题技能:高频、最常用的技能放入“常用书架”,容量较小以便快速调用;相对低频但仍有价值的技能进入更大容量的“仓库书库”,尽量避免长期不用而丢失。该结构在效率与覆盖面之间做平衡——既保证常用技能调用速度——也保留长尾经验,为后续任务提供素材。 二是增强自主技能选择能力。不同于依赖外部机制指定策略的做法,ARISE在面对新题时会快速评估并匹配技能图书馆,从中挑选更贴合当前问题结构的技能组合,提升推理的针对性与一致性。研究团队认为,这种“先检索经验、再组织推导”的路径可减少无效尝试,让系统更接近人类解题时“先想方法、再落笔”的过程。 三是设计多层奖励机制,促使系统不仅追求最终正确,也重视过程中的技能复用与技能改进。研究显示,仅以结果为导向的奖励容易带来短视策略,而分层激励可推动系统在求解同时更新技能库、优化调用路径,形成“解题—沉淀—再利用”的闭环。 (影响)研究团队在多个数学测试集上验证ARISE,其中包括美国数学竞赛相关题集以及奥林匹克级别的Omni-MATH等高难度数据集。结果显示,该系统整体优于对照方法,并在高难度测试中增益更明显,最高提升幅度达2.9个百分点。研究还对效果来源进行分析,认为分层奖励、自主选择与持续技能生成等因素共同作用,使推理能力从“单题能力”转向“经验积累能力”,提升了跨题型的稳定性。 从应用层面看,这一探索对教育、科研辅助等方向具有参考价值:一上,可为数学学习支持工具提供更接近“循序渐进、持续复盘”的路径,提升辅导的连贯性与个性化;另一方面,在复杂证明、符号推导和多步骤建模等任务中,若能稳定复用高价值中间技能,有望减少重复推导成本,提高科研计算与验证效率。 (前景)研究团队也指出,ARISE目前主要围绕数学推理场景优化,其在其他任务类型中的通用性仍需继续验证。下一步值得关注的方向包括:提升技能抽象的可解释性与可审核性,降低技能库累积带来的偏差扩散风险;在更广泛的科学计算、代码验证、工程规划等任务中检验“技能图书馆+自主选择+过程激励”的有效性;以及在效率、存储与安全边界之间取得更可持续的工程平衡。总体而言,ARISE的思路是把推理系统从“做题”推进为“能积累经验的学习者”。若这一范式持续成熟,有望推动高难度推理应用走向更可靠的阶段。

这项研究聚焦智能系统在数学推理中的关键短板,并给出了一条可落地的改进路径:让系统像人一样在解题中沉淀方法、复用经验、持续迭代;随着有关机制继续完善,未来在人机协同的教学辅助与科研推导中,有望带来更稳定、更高效的支持能力。