gpt-5.4,把大伙儿给炸了。这模型最大的本事就是能自己动手操控电脑,不用套什么外壳

半夜三更,OpenAI悄悄上架了GPT-5.4,把大伙儿给炸了。这模型最大的本事就是能自己动手操控电脑,不用套什么外壳或补丁,只要看着屏幕、点鼠标敲键盘,就能跟真人一样使唤各种软件。实测显示,这东西在MacBook上是真神了,只要你说句话,它就能帮你在日历上设个提醒,或者打开个APP放节目。要是让它换张壁纸、跑到终端里跑代码,也都是手到擒来。做OSWorld-Verified那个基准测试时,它的成功率高达75.0%,比普通人的平均水平72.4%还高。这可是头一遭有AI在真实环境里干活比人类强。拿这个数跟GPT-5.2的47.3%比一比,操控能力那是突飞猛进。 做个人AI助手那个项目的头儿Peter Steinberger就说了,OpenClaw讲的是“AI不光要聊天,还得干活”,以前工具老是卡壳或者成本高的问题,现在全让GPT-5.4给搞定了。那个能记住100万个Token的长上下文窗口,配合上按需调用工具的机制,让OpenClaw的效率提了47%,钱也省了不少。再加上它在编程、算数学、写文档这些事儿上都超过了83%的人类专家水平,这助手已经不只是个补全工具了,是个实打实的“赛博秘书”。 HyperWriteAI的老板Matt Shumer直接夸这是“世界上最好的模型”,说它干得比专业版都漂亮,写代码更是“完美无瑕”。Mercor AI的头儿Brenda也信誓旦旦地说,这个模型能干掉顶尖咨询公司、投行和律所的活儿,覆盖所有金领的工作场景。OpenAI的科学家Sebastien Bubeck发了张图来炫耀它的编程能力升级,结果社区里有人拿低端模型和GPT-5.4跑OpenClaw一对比,发现差距能有40%到95%。 以前大家只比参数规模大小,现在这事儿变了风向,大家开始琢磨“AI能干啥”。当模型的电脑熟练度都超过普通人了,专业活还干得跟专家一样棒,“个人AI员工”这条路就跑通了。OpenClaw那边的文档已经把接入的配置方法列好了,第一批用的人正在社区里晒体验呢。一场由模型驱动的大换血正在静悄悄开始。