我国科研团队攻克人工智能关键难题推动AI从"语言理解"走向"实际操作"

（问题）一直以来，生成式模型问答、写作等文本任务上表现亮眼，但在“把事情真正做完”该步常常卡住：当用户提出“整理文件”“制作表格”“批量处理图片”等需求时，模型多半只能给出操作建议，却难以在真实操作系统里完成点击、输入、切换窗口、保存提交等具体动作；对企业来说，这意味着“能咨询、难落地”的成本仍在；对个人用户来说，效率工具往往还停留在“会说不会做”的阶段。（原因）研究人员认为，这一能力缺口主要来自两点：一是训练目标长期围绕文本预测和语言对齐，缺少大量可复现的“界面—动作—结果”链路数据，模型难以学到稳定可靠的操作策略；二是真实计算环境复杂且多变，界面元素经常变化，弹窗、异常提示和权限请求随时出现，单靠固定脚本或规则引擎难以覆盖，导致系统级任务执行不够稳定。（影响）基于此，微软研究院联合北京大学、浙江大学和荷兰埃因霍温理工大学在2024年12月发布的预印本论文（arXiv:2412.10047v2）提出“大型行动模型”概念，目标是把“理解意图—规划步骤—调用工具—执行操作—反馈修正”打通，形成可循环的闭环能力。研究团队以Windows系统为试验平台，构建名为“UFO”的助手原型，使其能够识别界面状态并执行鼠标点击、键盘输入、打开应用、编辑文档等操作，并在失败或环境变化时调整策略。论文披露的实验结果显示，该系统在一组复杂任务测试中的完成率为71%，整体执行效率较传统流程提升近3倍，并具备一定的错误恢复能力。业内人士认为，这类探索一旦实现规模化落地，生产力工具有望从“信息提供”深入走向“流程执行”，在办公自动化、客服工单处理、软件运维、数据整理等场景带来新的改造空间。（对策），研究也提醒了风险边界：能够直接操作系统的模型，一旦误解指令、识别出错或在异常情况下误操作，可能造成数据删除、隐私泄露、越权访问等问题。为降低不确定性，业内普遍建议建立分层防护与治理体系：技术侧强化最小权限与分级授权，引入关键操作二次确认、可回滚日志、沙箱环境与行为审计；产品侧强调操作过程可视化、可追溯，支持用户随时接管与中止；治理侧建立覆盖数据合规、责任界定与安全评估的流程标准，并推动企业在上线前开展红队测试与上线后的持续监测。此外，成本与能耗、可维护性，以及对特殊人群和关键行业的适配，也需要纳入后续工程化评估。（前景）受访研究人员认为，随着图形界面理解、工具调用能力和安全控制体系的完善，面向操作系统与业务软件的“任务执行型”模型有望在更多行业落地，推动人机交互从“问答式”走向“协作式”。短期来看，价值可能优先体现在高频、规则清晰、结果可验收的流程型工作；中长期来看，若能在安全可控前提下实现跨软件、跨权限域的可靠协同，或将催生新的数字化生产方式，并推动软件生态在接口标准、可观测性与可审计性上加速演进。

技术每一次跃迁，往往来自对既有短板的正视与系统性突破。大型行动模型的进展，反映出人工智能正在从“知道”迈向“做到”。看似只跨了一步，背后却牵动训练范式、系统架构与安全机制的全面更新。这项研究的价值，不只在于解决了哪些具体问题，也在于更清楚地勾勒出下一阶段智能技术的演进方向。如何在能力扩展与风险管控之间找到平衡，将成为技术界、产业界乃至政策制定者共同面对的关键命题。

我国科研团队攻克人工智能关键难题 推动AI从"语言理解"走向"实际操作"

我国科研团队攻克人工智能关键难题推动AI从"语言理解"走向"实际操作"