把AI编程从Copilot的辅助角色转向Agent时代,2025年末AI已经彻底转型。Agent可以完成复杂任务和处理独立Bug,不过2026年初OpenClaw的出现,推动Agent进入了长期运行的系统阶段。为了超越人类,AI得依据需求和环境不断迭代和软件接口交互。现实中,代码库会随着需求变化膨胀,早期隐患也可能演变成系统性风险。 复杂多变的软件开发不是一次性过程,是一场持续博弈。 为了检验持续演进的能力,USC邓港大、UCR陈炤伶、Stanford丛乐、Princeton王梦迪、Haven唐相儒还有OpenHands王星尧一起发布了新评估基准EvoClaw。 他们从真实开源项目中提取历史数据,把代码提交变成功能内聚的里程碑任务依赖图(Milestone DAG),保留任务间的时间依赖关系。 研究表明,在连续发展中遇到长期演进时,AI的表现会大幅下跌(从超过80%下降到40%以下)。 这次实验显示,AI要胜任自主软件演进还有明显差距。