问题—— 当前机器人智能的主流技术主要依赖“轨迹拟合”和“动作模仿”,即通过仿真环境、遥操作或闭环数据让机器人学习特定动作;然而,现实世界中物体材质差异、空间变化和受力不确定性等因素往往导致训练效果难以迁移——实验室表现良好的模型,换到真实场景可能失效。尤其在精细操作、动态交互和复杂环境移动等任务中,机器人因缺乏对物理规律和常识的理解,成为其从实验室走向规模化应用的主要瓶颈。 原因—— 行业面临的挑战主要集中在数据和训练方法上。一上,高质量具身数据获取成本高昂:传统采集方式依赖昂贵设备、反复标定和长时间操作,且数据通常局限于特定硬件平台,难以覆盖真实世界的多样性。另一方面,现有训练方法更关注“如何做”而非“为何如此”,模型仅学习动作与轨迹的对应关系,而对碰撞、摩擦、支撑等物理因果缺乏可迁移的表征能力,导致泛化性不足。此外,模型持续微调中容易出现“旧能力遗忘新问题”,影响复杂任务中的稳定性。 影响—— 针对这些问题,深度机智在论坛上发布了PhysBrain 1.0具身通用智能基座模型,尝试以物理常识为基础重构训练逻辑。该模型采用双脑架构与新型训练策略,通过大规模人类第一视角视频构建训练数据,将隐含的空间关系、力学逻辑和因果链条转化为可学习的监督信号,推动机器人从“模仿动作”向“理解物理”升级。测试数据显示,该模型在对应的测评中达到行业先进水平,在SimplerEnv测试中平均成功率达80.2%,验证了“以常识驱动执行”的可行性。业内人士指出,若机器人能更稳定地理解物理规律,将明显提高其对陌生环境、不同物体和多步骤指令的适应能力,深入拓展工业、物流和公共服务等领域的应用空间。 对策—— 围绕数据来源、数据使用和模型架构三个关键环节,该企业提出了一套系统性技术方案: 1. 数据来源:以真实场景的人类第一视角交互数据为核心,减少对仿真和遥操作数据的依赖,并通过情境化采集获取多模态信息,使训练样本更符合人类操作逻辑和物理规律。 2. 数据使用:通过数据增强和结构化处理,将视频中的隐性经验转化为可监督信号,补全具身模型对空间和力学因果的学习链条。 3. 模型架构:利用多模态模型内化物理常识,强化对时空一致性的理解;通过双脑融合设计缓解微调中的能力遗忘问题,并采用特定训练策略提升未知场景的泛化能力。 此外,发布现场还展示了配套的拟人体机器人Prime和便携式终端设备,用于低成本高效获取第一视角多模态数据。企业还提出建设标准化人类行为数据库和物理世界知识库,为行业提供数据基础设施支持。 前景—— 当前,智能技术正从“信息处理”向“现实执行”加速演进,具身智能被视为连接算法与产业场景的关键桥梁。尽管我国在机器人硬件制造、应用场景和大模型研发上具备优势,但规模化应用仍需突破数据体系、通用能力、安全性和成本控制等挑战。未来具身智能可能呈现三大趋势: 1. 训练数据从“小规模高成本”转向“规模化可复用”,并形成跨机构的数据标准与评测体系; 2. 模型从单一技能迈向通用能力,在多任务和多场景中保持稳定可控; 3. 产业从“样机演示”升级为“可维护、可部署、可迭代”的工程化体系,形成软硬件协同、数据闭环驱动的产品路径。 业内认为,以“物理常识”为核心的训练范式若能进一步验证其鲁棒性和安全性,有望成为推动具身智能实用化的重要方向。
从“让机器学会动作”到“让机器理解物理世界”——看似一小步——实则需要对数据体系、训练范式和工程平台进行全面重构;未来,谁能率先建立低成本数据闭环、形成可迁移的物理常识能力并通过规模化验证,谁就更可能在具身智能的产业化竞争中占据先机。技术创新值得鼓励,但更需在真实场景中长期检验,以推动产业高质量发展。