机器人的“聪明大脑”:chatgpt、gpt-4v、sora、gpt-4o

在机器人世界大会上,各路机器人纷纷展示自己的才华。它们在工厂、商场,甚至家里都能自由移动,这背后离不开具身大模型这个“聪明的大脑”。ChatGPT这类大模型主要负责处理文字和语音图像,而具身大模型则要让机器人看清楚、听明白、弄清楚环境,然后直接动手去做动作。 具身大模型和非具身大模型有明显区别。非具身大模型比如ChatGPT、GPT-4V、Sora、GPT-4o等主要负责对话和内容生成。它们就像外交官一样,和人交流得很好,但并不直接操控物理世界。 相比之下,具身大模型像特斯拉FSD、Robotaxi和扫地机激光雷达一样能够实时读取视觉信号并指导机器进行操作。具身大模型则进一步升级了这个功能,让机器人的四肢和关节更加灵活协调完成各种任务。 谷歌推出了RT-2这个端到端具身大模型,在厨房里完成倒咖啡、摆盘子等任务时成功率接近98%。不过它也有一些问题:首先是泛化能力差,一旦换个环境成功率就会降到30%左右;其次是反应速度慢;最后是封闭训练。 这个问题可能需要从自动驾驶领域获取一些启示。Waymo力推L4+方案但一直未能量产;特斯拉则通过FSD Beta在真实世界中收集数据并迭代改进方案。类似地,机器人行业也可以先解决局部问题再逐步推进通用化。 从神经科学角度看人脑也有快思考和慢思考系统。这个双系统机制可以给机器人大脑设计提供参考:上层用大模型进行认知推理,下层用小模型进行实时控制。 国内某头部企业在发布会上公布了G1-G5五级台阶规划方案,给具身智能制定了标准:G1为基础自动化阶段;G2把技能抽象成可复用模块;G3为端到端初成型阶段;G4为通用操作阶段;G5为人工通用智能(AGI)阶段。 当数据量指数级增长、模型参数增加、多模态融合越来越成熟时,机器人将不仅仅是工具而是具备自我学习和进化能力的智能体。它们能在仓库帮忙码货、在客厅陪孩子玩耍、在手术室协助医生做手术——像《西游记》里的八戒一样“呆”却越来越“灵”。 从RT-2的跌倒到G5的登顶,每一步都在提醒我们具身大模型并不是终点而是新起点。当机器学会像人类一样多任务、自适应和学习时,真正的智能时代才刚刚开始。