大模型与高效微调助力机器人“学新不忘旧”，连续学习难题出现新解法

问题——机器人领域长期面临“灾难性遗忘”问题：当系统学习新技能时，已掌握的动作策略、感知能力或指令理解能力会出现退化；这个问题严重限制了机器人真实场景中的应用——现实环境任务复杂多变，如果每次升级都需要重新训练或引入复杂的防遗忘机制，不仅成本高、周期长，还会影响部署的稳定性和安全性。原因——得克萨斯大学奥斯汀分校联合加州大学洛杉矶分校、南洋理工大学及Sony AI等机构的研究团队，在2026年机器学习领域顶级期刊发表了一项研究成果（论文编号：arXiv:2603.11653v1）。研究聚焦“视觉-语言-动作”模型，使系统能够同时处理视觉输入、理解自然语言指令并输出可执行动作。团队在五类机器人任务场景中测试了八种连续学习策略，发现传统复杂的防遗忘方案并未显著优于简单方法。相反，基于大规模预训练模型的顺序微调不仅保持了旧任务表现，还在部分指标上提升了新环境和指令组合的适应能力。深入分析表明，这一效果源于三上因素： 1. 模型规模与预训练：大参数规模和丰富的预训练数据提供了足够的表征空间，减少新任务对核心能力的干扰。 2. 参数高效微调技术LoRA：通过低秩适配模块扩展能力，避免大幅修改既有参数，从而保护已学知识。 3. 在线策略强化学习：通过与环境交互动态调整策略，减少纯离线训练带来的误差积累。影响——这一发现对机器人持续迭代具有实际意义： - 降低多任务训练对计算资源和算法复杂度的依赖。 - 加速机器人能力升级到实际应用的周期。 - 提升系统在未知物体、新指令或环境变化下的鲁棒性，适用于家庭服务、仓储物流和工业制造等领域。对策——研究团队建议下一步工作重点包括： 1. 建立更严格的评测标准，关注长期任务链表现。 2. 结合安全约束和可解释性优化顺序微调方法。 3. 验证不同机器人平台和数据分布下的可迁移性。 4. 探索有限算力下的高效预训练和增量更新方案。前景——机器人智能化正从“单点技能优化”转向“开放世界持续学习”。研究表明，随着预训练模型的发展，部分结构性问题可能得到缓解——并非所有连续学习都会导致明显遗忘，关键在于模型能力、更新方式和交互机制的匹配。未来研究需在更复杂、长期的任务体系中验证这一结论，并探索其与多模态感知、规划控制等技术的协同效应。

当机器突破传统认知边界，这场认知革命正在重塑人机协作的未来。正如文字拓展了人类文明的传播范围，智能体持续学习的进步将重新定义人机互动的深度与广度。每一次技术突破都需平衡创新与伦理，推动更审慎的规范和更完善的实践。