我国科研团队攻克人工智能关键难题 推动AI从"语言理解"走向"实际操作"

(问题)一直以来,生成式模型问答、写作等文本任务上表现亮眼,但在“把事情真正做完”该步常常卡住:当用户提出“整理文件”“制作表格”“批量处理图片”等需求时,模型多半只能给出操作建议,却难以在真实操作系统里完成点击、输入、切换窗口、保存提交等具体动作;对企业来说,这意味着“能咨询、难落地”的成本仍在;对个人用户来说,效率工具往往还停留在“会说不会做”的阶段。 (原因)研究人员认为,这一能力缺口主要来自两点:一是训练目标长期围绕文本预测和语言对齐,缺少大量可复现的“界面—动作—结果”链路数据,模型难以学到稳定可靠的操作策略;二是真实计算环境复杂且多变,界面元素经常变化,弹窗、异常提示和权限请求随时出现,单靠固定脚本或规则引擎难以覆盖,导致系统级任务执行不够稳定。 (影响)基于此,微软研究院联合北京大学、浙江大学和荷兰埃因霍温理工大学在2024年12月发布的预印本论文(arXiv:2412.10047v2)提出“大型行动模型”概念,目标是把“理解意图—规划步骤—调用工具—执行操作—反馈修正”打通,形成可循环的闭环能力。研究团队以Windows系统为试验平台,构建名为“UFO”的助手原型,使其能够识别界面状态并执行鼠标点击、键盘输入、打开应用、编辑文档等操作,并在失败或环境变化时调整策略。论文披露的实验结果显示,该系统在一组复杂任务测试中的完成率为71%,整体执行效率较传统流程提升近3倍,并具备一定的错误恢复能力。业内人士认为,这类探索一旦实现规模化落地,生产力工具有望从“信息提供”深入走向“流程执行”,在办公自动化、客服工单处理、软件运维、数据整理等场景带来新的改造空间。 (对策),研究也提醒了风险边界:能够直接操作系统的模型,一旦误解指令、识别出错或在异常情况下误操作,可能造成数据删除、隐私泄露、越权访问等问题。为降低不确定性,业内普遍建议建立分层防护与治理体系:技术侧强化最小权限与分级授权,引入关键操作二次确认、可回滚日志、沙箱环境与行为审计;产品侧强调操作过程可视化、可追溯,支持用户随时接管与中止;治理侧建立覆盖数据合规、责任界定与安全评估的流程标准,并推动企业在上线前开展红队测试与上线后的持续监测。此外,成本与能耗、可维护性,以及对特殊人群和关键行业的适配,也需要纳入后续工程化评估。 (前景)受访研究人员认为,随着图形界面理解、工具调用能力和安全控制体系的完善,面向操作系统与业务软件的“任务执行型”模型有望在更多行业落地,推动人机交互从“问答式”走向“协作式”。短期来看,价值可能优先体现在高频、规则清晰、结果可验收的流程型工作;中长期来看,若能在安全可控前提下实现跨软件、跨权限域的可靠协同,或将催生新的数字化生产方式,并推动软件生态在接口标准、可观测性与可审计性上加速演进。

技术每一次跃迁,往往来自对既有短板的正视与系统性突破。大型行动模型的进展,反映出人工智能正在从“知道”迈向“做到”。看似只跨了一步,背后却牵动训练范式、系统架构与安全机制的全面更新。这项研究的价值,不只在于解决了哪些具体问题,也在于更清楚地勾勒出下一阶段智能技术的演进方向。如何在能力扩展与风险管控之间找到平衡,将成为技术界、产业界乃至政策制定者共同面对的关键命题。