港大创新"精准训练法"破解智能系统"学新忘旧"难题 效率提升显著

大模型迭代训练中普遍存在“学新忘旧”的问题:当模型学习新技能、适应新指令或特定任务时,原有的通用能力、指令理解能力甚至语言表达稳定性可能下降。该现象被称为“灾难性遗忘”。随着多场景部署和行业应用加速推进,如何让模型“学得快、改得准、不忘旧功”成为训练方法研究的关键课题。 从训练方法来看,常见路径包括监督微调和基于反馈的强化学习。监督微调依赖标注数据集中调整模型,但容易引发参数空间的连锁变化;强化学习更稳健,但成本和时间消耗较高。港大团队在预印本中指出,即使使用相同训练数据,不同训练方式对“能力保持”和“能力迁移”的影响差异显著,说明遗忘问题不仅与数据分布有关,更新机制也是关键因素。研究通过数学分析提出“弹性拴绳”更新特性:模型距离目标较远时允许大幅调整以快速收敛;接近正确答案时则减小更新力度,避免过度扰动已有知识结构。实验显示,不同机制在高置信度区域的更新强度可能相差数倍,导致“过度调整”与“温和修正”的明显区别。 这一发现对产业界和学术界均有实际意义。大模型需要同时提升数学、代码等专项能力,同时保持对话、写作等基础表现。若每次迭代都伴随能力回退,将增加评测成本和上线风险。此外,随着合规要求、行业知识和个性化需求增多,模型需频繁小步更新;若更新控制不精准,可能引发“修补局部、扰动整体”的系统风险。港大团队的研究表明,优化训练机制可缓解这一问题,为低成本增量训练提供新思路。 预印本提出的“外科手术式训练”(SPOT)以“精准修正错误”为核心,将训练目标从全面改写转向定点校正,减少对通用能力的影响。在Qwen3-8B的实验中,该方法仅用28分钟就将数学推理指标提升6.2%,同时有效控制能力漂移。研究还指出,即使训练数据贴近模型原有知识结构,若更新机制缺乏弹性收敛特性,仍可能导致不必要的能力损耗。因此,与其单纯增加数据规模或追求数据分布相似性,不如同步优化训练策略和更新控制,在“学新”与“守旧”间找到更好平衡。 未来,精细化训练方法可能成为大模型工程化的重要组成部分:一是实现更快增量迭代,降低训练成本;二是提高版本稳定性,减少回归测试压力;三是增强能力组合可靠性,提升教育、科研等场景的交互质量。不过,预印本成果仍需更多公开基准和跨任务验证,尤其在复杂指令跟随、多轮交互等场景下,如何兼顾能力提升与整体稳健性仍是关键问题。业界预计,未来训练技术将更注重“可控更新”“影响可解释性”和“评测闭环”,推动大模型从规模驱动转向精度驱动。

人工智能的发展本质是持续学习和优化的过程;香港大学的研究表明,突破性进展不仅依赖更多数据或更强算力,更源于对学习机制的深入理解和创新设计。从粗放训练到精准调整的转变,标志着人工智能研究正从量的积累迈向质的飞跃。随着这类方法的完善,AI模型将更高效地实现能力升级,为实际应用创造更多可能。