百万小时机器人数据采集面临三大难题

记者3月19日走访北京人形机器人创新中心时，发现他们在“百万小时数据”这件大事上已经有了眉目。具身智能数据基地虽然眼看就能达成这个目标，但现在也遇到了不小的坎。很多场景被拆得太散，机器人间的“语言”又不通，再加上数据好坏不一，大家都在想办法把“数据飞轮”转起来。基地里复刻了家居、商超等六大领域，光典型场景就搭建了超过30个。这些地方可不是死摆设，而是可以像工厂流水线一样随意调配组合的动态空间。他们还定了一套标准的管理流程，从数据怎么抓、怎么标到最后怎么检查都有严格规定，确保任务发下去和结果交上来都能保质保量。想要让机器人真正落地各行各业，光靠几百几千条修得好好的数据远远不够，得用海量、多样的高质量原料把模型喂饱。尤其是真机数据，这是让虚拟的智能走进现实的必由之路。真机能精准捕捉到力觉、触觉这些仿真做不出来的细节，也就是那种“物理直觉”，只有通过多模态数据训练才能掌握。这种数据在真实任务闭环里蕴含着大量人类的隐性决策，价值密度特别高。它还能帮机器人适应各种突发情况，彻底解决分布偏移的问题。不过现在数据采集面临三大难题：真实环境太乱变量太多，算法泛化不过来；不同机器人长得不一样像说方言一样难以互通；采集过程中任何一个环节出错都可能搞出低质数据浪费资源甚至带偏模型。为了打破瓶颈，北京人形机器人创新中心搞了个专业化的数据基地，把分散的场景集中起来复现，把不同的机器人统一调度管理。目前他们已经给不少大企业和研究机构送了超数万小时的好数据，整体合格率稳稳踩在95%以上。《中国电子报》杨鹏岳写的这篇报道经过邱江勇编辑和马利亚美工加工后发布。