聊到2026年的机器人圈,“以正合、以奇胜”真是一点不假。要搞懂这个行业,大脑和小脑的分工可不能混为一谈。 大脑管感知和规划,说白了就是让人跟机器能聊天,还得能听明白任务、想清楚怎么干、把流程理顺。大模型这时候就该登场了,给它把活儿干得漂漂亮亮。而小脑负责把计划变成动作,控制着状态分析、全身怎么动、轨迹怎么优化,动作规划具体说清楚走哪条路、怎么操作,运控算法还得把伸胳膊、抓东西这些细节死死把控住。 说到大脑的核心,算法、算力和数据一个都少不了。特斯拉那边拿FSD V14的MoE模型和Grok 3一起搭档,算法上没毛病。算力这块靠Dojo 3的自研超算、Cortex集群,再加上xAI的Colossus三引擎齐头并进。芯片方面,AI5、AI6、AI7直接覆盖了车、机器人还有太空那边的训练和推理,这就是“数据-模型-算力-芯片”的全闭环玩法。 英伟达那边也没闲着,发布了人形机器人的通用基底模型Groot,配上Blackwell云端超算中心、Jetson端侧芯片和Isaac训练平台。OpenAI直接把大语言模型接到Figure这些人形机器人产品上去了。谷歌的机器人大模型也迭代到了Gemini Robotics 1.5,这是个能把视觉、语言和动作(VLA)玩转的家伙,还有个Gemini Robotics-ER 1.5,专门搞最先进的具身推理(ER)。这模型挺厉害的,第一个创新点就是架构新还有运动迁移(MT)机制,让它能从各种乱七八糟的数据里学东西。第二个是让动作跟内部的自然语言推理搅和在一起,让机器人学会“先想后做”。第三个就是在具身推理这块拿到了新的最先进水平,比如视觉空间理解、任务规划这些能力都很强。 不过话说回来,大脑的本事全靠数据撑着,小脑还得靠硬件配合。机器人动起来的数据可太复杂了,得从头定义还得在真环境里大搞特搞。报告里都说了数据不足是大问题,想提高智能算法还是得靠数据。 最好的办法就是让机器人自己去干活采集数据,可成本太高限制了数量。那咋办?用人类教它、让它真干采集也是个办法。国内的人形国创中心就利用百台机器和不同场景搞了个具身智能训练场,积累了一堆异构虚实数据集来支撑学习训练。 至于仿真合成的数据,那是真让人头疼。大语言模型能根据任务描述搞代码搭建场景,还能自动验证修改迭代。它还能根据任务生成高质量的仿真环境库供新任务检索优化。最后还能采集专家数据训练策略。GenSim框架倒是挺好用的能搭环境产数据或者探索新任务,但缺点是太局限于Ravens机械臂抓取这一块。除了提高仿真器性能还可以少用点实采数据加上虚实对齐(VRA)算法来凑活凑活。 别忘了互联网上还有海量人类操作的视频数据量庞大,要是能合理利用也能帮大忙。这就需要团队有扎实的数据清洗能力和基础设施了。至于小脑嘛就是那些模型加上IMU、MCU编码器、末端传感器这类硬家伙了。