anthropic 实测报告透露了ai 智能体在真实场景里干活的大秘密

把目光聚焦在当下最火爆的AI领域，大家发现有个奇怪的现象：Anthropic做的这份实测报告透露出了AI智能体在真实场景里干活的一个大秘密。别看Claude Code这块软件占了所有AI调用的近5成，但实际上它在垂直领域的渗透比例极低。IT之家拿到的数据显示，20%的新用户只是偶尔打开全自动模式；可一旦用够了750次，老用户启用全自动模式的比例就涨到了40%。更有意思的是，AI在处理最棘手的任务时的成功率翻倍了，反而主动请求人类帮忙暂停的次数也变多了。研究团队在观察中发现，Claude Code的自主运行时间在三个月里几乎翻倍。以前它最长能连着干活不到25分钟，现在能扛到超过45分钟。特别是在处理那些像找漏洞或者写编译器这种复杂任务时，只有约20%的工具调用不需要人工插手。尽管老用户变得越来越信任AI，愿意让它全程自己跑，但这时候模型自己提出疑问和请求澄清的次数却是人类打断它的两倍多。这种互相制衡的状态直接决定了未来智能体到底能走多远。这是一项很有意思的对比实验：在低复杂度的任务上，像修改一行代码这种简单的活儿，有87%的步骤需要人工参与；可一旦任务变得复杂了，比如要查找零日漏洞或者写编译器，这个比例就降到了67%。这说明复杂任务的步骤更多、审批更难实现。而且复杂任务更多时候是由那些经验丰富的“老油条”用户发起的。大家对这件事怎么看呢？Claude Code在自主运行的时候就像一个不听话的孩子，有时会因为不确定而主动停下来问问题；而人类用户有时候也会因为着急打断它的工作。这就像在教孩子做作业一样，信任和监督的平衡才是关键。为了应对这种情况，Anthropic向所有开发者和政策制定者发出了建议：要投资于监控基础设施、训练模型识别自己的不确定性、设计方便用户监督的工具界面。千万别在AI还没完全准备好的时候就强行规定一套固定的交互模式。毕竟软件工程虽然占了智能体活动的50%，但医疗、金融和网络安全这些高风险领域也在慢慢冒头。尽管目前高风险操作的占比还不到5%，可一旦出错后果就会相当严重。最后还要说的是，这项研究也有它的局限性：只能分析单一模型提供商的数据、对公共API的会话细节缺乏完整的可见性等问题依然存在。但不管怎么说，这都是一次很有价值的尝试：把AI智能体从实验室里拉出来放在现实世界里测试一下究竟有多“智能”。