我国科研团队发布数学推理新成果国际顶级赛事解题能力获突破性提升

形式化数学推理正成为国际学术界与产业界共同关注的前沿方向。

一方面，数学证明对逻辑严密性要求极高，传统自然语言证明难以实现机器可验证；另一方面，形式化证明可用于验证关键算法与系统的正确性，在科学计算、工程软件、芯片设计等领域具备潜在应用价值。

在此背景下，字节跳动Seed团队发布Seed Prover 1.5，聚焦“可验证证明生成”，并以Lean语言为主要验证载体，试图在“能解题”之外进一步推动“能给出可检验的严格证明”。

问题：形式化证明难在“可解”与“可证”的双重门槛。

长期以来，模型在数学推理上往往停留在给出答案或推理过程，但缺乏可由定理证明器自动核验的形式化证明代码。

即便能够生成部分证明片段，也常因细节缺失、类型不匹配、调用不当而无法编译验证，导致“看似正确但不可复现”的问题突出。

与此同时，竞赛级题目通常涉及多步推理与复杂构造，对模型的搜索策略、错误修正与证明规划提出更高要求。

原因：团队将进展归因于大规模“智能体式强化训练”带来的策略改进。

与仅依赖静态语料的训练方式不同，面向形式化证明的训练需要模型在“生成—编译—报错—修正”的闭环中不断迭代，从而逐步学会在严格语法与证明规则约束下完成推导。

强化训练能够把“通过验证”作为目标信号，引导模型形成更有效的证明搜索与错误恢复能力。

此外，Lean生态中丰富的数学库与策略工具，为模型提供了可调用的证明组件，但如何在组合调用中保持一致性与可验证性，仍需要更强的规划能力与更高的推理效率，这也成为新模型试图重点解决的方向。

影响：从公开信息看，Seed Prover 1.5在多项评测中展示了更强的“可编译验证”能力。

团队称，模型在约16.5小时内针对IMO 2025前5题生成完整可编译验证的Lean证明代码，按既有评分换算可达金牌分数线；在Putnam 2025赛题上，约9小时内对12题中的11题给出可验证证明。

更系统的评估中，该模型在Putnam历史题集上解决率达到88%，并在代表更高难度层级的Fate-H、Fate-X评估集中分别达到80%与33%。

这些数字若经更广泛复核，意味着形式化数学推理在“竞赛难度”和“跨题集泛化”上进一步逼近可用门槛：不仅能在少量样题上展示能力，也开始在历史题库与不同难度集合中形成相对稳定的表现。

对策：业内普遍认为，推动形式化推理能力走向工程化应用，需要在可验证性、可复现性与可对照评测上形成闭环。

一是强化公开透明的评测体系，明确题集划分、训练数据边界与去重策略，减少“数据泄漏”对指标的干扰，提高结论的可信度。

二是完善从生成到验证的工具链，提升证明生成的可读性、可维护性与可复用性，使其不仅“能编译通过”，也能服务数学研究与工程验证的实际需求。

三是建立面向应用场景的安全与可靠性规范，在关键领域引入人工复核、形式化审计与多模型交叉验证机制，避免将单次通过验证等同于完全正确。

四是推动开放合作与生态共建，围绕Lean等证明器形成更丰富的任务集、基准与开发工具，降低研究与应用门槛，促进成果可复现与可迁移。

前景：随着模型推理与验证闭环训练方法的成熟，形式化数学推理有望在两个方向加速演进。

其一是“更强推理”：在更高难度的研究级题目上取得稳定突破，逐步向跨领域定理库迁移，并提高在长证明、复杂构造中的稳定性。

其二是“更强应用”：在软件与硬件验证、密码协议、数值算法正确性证明等场景中，形成可集成、可追踪、可审计的证明生产能力。

与此同时，也需要看到，当前结果多基于特定证明器生态与既定评测集，模型对新领域、新库结构的适应性仍待观察；在效率、成本与可解释性方面，距离大规模部署仍存在工程挑战。

未来，指标提升与应用落地能否同步推进，将取决于评测规范、工具链能力与行业协同的共同进展。

数学是自然科学的基础，形式化证明代表了数学严谨性的最高要求。

Seed Prover 1.5在国际竞赛中的突破性表现，不仅展示了人工智能在数学领域的应用潜力，更重要的是为数学研究、教育和验证开辟了新的可能性。

随着相关技术的进一步完善和广泛应用，我们有理由期待，数学与人工智能的深度融合将为科学进步和技术创新注入新的动力，同时也为人类对数学真理的探索提供更加有力的工具支撑。

我国科研团队发布数学推理新成果 国际顶级赛事解题能力获突破性提升