机器人的“聪明大脑”：chatgpt、gpt-4v、sora、gpt-4o

在机器人世界大会上，各路机器人纷纷展示自己的才华。它们在工厂、商场，甚至家里都能自由移动，这背后离不开具身大模型这个“聪明的大脑”。ChatGPT这类大模型主要负责处理文字和语音图像，而具身大模型则要让机器人看清楚、听明白、弄清楚环境，然后直接动手去做动作。具身大模型和非具身大模型有明显区别。非具身大模型比如ChatGPT、GPT-4V、Sora、GPT-4o等主要负责对话和内容生成。它们就像外交官一样，和人交流得很好，但并不直接操控物理世界。相比之下，具身大模型像特斯拉FSD、Robotaxi和扫地机激光雷达一样能够实时读取视觉信号并指导机器进行操作。具身大模型则进一步升级了这个功能，让机器人的四肢和关节更加灵活协调完成各种任务。谷歌推出了RT-2这个端到端具身大模型，在厨房里完成倒咖啡、摆盘子等任务时成功率接近98%。不过它也有一些问题：首先是泛化能力差，一旦换个环境成功率就会降到30%左右；其次是反应速度慢；最后是封闭训练。这个问题可能需要从自动驾驶领域获取一些启示。Waymo力推L4+方案但一直未能量产；特斯拉则通过FSD Beta在真实世界中收集数据并迭代改进方案。类似地，机器人行业也可以先解决局部问题再逐步推进通用化。从神经科学角度看人脑也有快思考和慢思考系统。这个双系统机制可以给机器人大脑设计提供参考：上层用大模型进行认知推理，下层用小模型进行实时控制。国内某头部企业在发布会上公布了G1-G5五级台阶规划方案，给具身智能制定了标准：G1为基础自动化阶段；G2把技能抽象成可复用模块；G3为端到端初成型阶段；G4为通用操作阶段；G5为人工通用智能(AGI)阶段。当数据量指数级增长、模型参数增加、多模态融合越来越成熟时，机器人将不仅仅是工具而是具备自我学习和进化能力的智能体。它们能在仓库帮忙码货、在客厅陪孩子玩耍、在手术室协助医生做手术——像《西游记》里的八戒一样“呆”却越来越“灵”。从RT-2的跌倒到G5的登顶，每一步都在提醒我们具身大模型并不是终点而是新起点。当机器学会像人类一样多任务、自适应和学习时，真正的智能时代才刚刚开始。