乔治华盛顿大学提出ARISE系统破解数学推理“遗忘”难题推动模型持续进化

（问题）随着智能技术文本生成、代码辅助等领域能力快速提升，复杂数学推理仍普遍被认为是关键瓶颈之一；涉及的系统往往能在单次任务中给出看似合理的推导，但在跨题型迁移、长链条证明和高难度竞赛题上稳定性不足。研究团队指出，重要原因在于：不少现有方法把每次解题当作一次性过程，缺少将有效策略沉淀为可复用“经验”的机制，导致遇到相似问题仍要从头摸索，表现出类似“遗忘”的现象。（原因）从技术路径看，传统推理系统更侧重“当下求解”，常依赖外部提示、临时检索或固定模板完成推导；策略选择与更新多由预设规则驱动，难以形成可持续演进的内部技能体系。此外，评价与训练目标往往以“答案对错”为主，缺少对“是否高效调用已有方法、是否形成可迁移技巧”的激励，导致策略难以积累、也难以自我改进。在数学任务中此不足更为突出：题目表面差异大、隐含结构强、推理链条长，若无法对可复用的中间技能进行抽象与保存，系统就容易在复杂场景中反复试错、推导漂移。（对策）针对上述痛点，研究团队提出ARISE（Agent Reasoning via Intrinsic Skill Evolution）系统，核心思路是在推理过程中引入“可生长的技能记忆”。一是构建分层“技能图书馆”，用于存储与提炼解题技能：高频、最常用的技能放入“常用书架”，容量较小以便快速调用；相对低频但仍有价值的技能进入更大容量的“仓库书库”，尽量避免长期不用而丢失。该结构在效率与覆盖面之间做平衡——既保证常用技能调用速度——也保留长尾经验，为后续任务提供素材。二是增强自主技能选择能力。不同于依赖外部机制指定策略的做法，ARISE在面对新题时会快速评估并匹配技能图书馆，从中挑选更贴合当前问题结构的技能组合，提升推理的针对性与一致性。研究团队认为，这种“先检索经验、再组织推导”的路径可减少无效尝试，让系统更接近人类解题时“先想方法、再落笔”的过程。三是设计多层奖励机制，促使系统不仅追求最终正确，也重视过程中的技能复用与技能改进。研究显示，仅以结果为导向的奖励容易带来短视策略，而分层激励可推动系统在求解同时更新技能库、优化调用路径，形成“解题—沉淀—再利用”的闭环。（影响）研究团队在多个数学测试集上验证ARISE，其中包括美国数学竞赛相关题集以及奥林匹克级别的Omni-MATH等高难度数据集。结果显示，该系统整体优于对照方法，并在高难度测试中增益更明显，最高提升幅度达2.9个百分点。研究还对效果来源进行分析，认为分层奖励、自主选择与持续技能生成等因素共同作用，使推理能力从“单题能力”转向“经验积累能力”，提升了跨题型的稳定性。从应用层面看，这一探索对教育、科研辅助等方向具有参考价值：一上，可为数学学习支持工具提供更接近“循序渐进、持续复盘”的路径，提升辅导的连贯性与个性化；另一方面，在复杂证明、符号推导和多步骤建模等任务中，若能稳定复用高价值中间技能，有望减少重复推导成本，提高科研计算与验证效率。（前景）研究团队也指出，ARISE目前主要围绕数学推理场景优化，其在其他任务类型中的通用性仍需继续验证。下一步值得关注的方向包括：提升技能抽象的可解释性与可审核性，降低技能库累积带来的偏差扩散风险；在更广泛的科学计算、代码验证、工程规划等任务中检验“技能图书馆+自主选择+过程激励”的有效性；以及在效率、存储与安全边界之间取得更可持续的工程平衡。总体而言，ARISE的思路是把推理系统从“做题”推进为“能积累经验的学习者”。若这一范式持续成熟，有望推动高难度推理应用走向更可靠的阶段。

这项研究聚焦智能系统在数学推理中的关键短板，并给出了一条可落地的改进路径：让系统像人一样在解题中沉淀方法、复用经验、持续迭代；随着有关机制继续完善，未来在人机协同的教学辅助与科研推导中，有望带来更稳定、更高效的支持能力。