最近记者马欣欣去了一趟北京人形机器人创新中心,想要看看他们是怎么弄出300万条数据的。北京市经济和信息化局的工作人员告诉她,这个中心的数据采集与训练基地刚用了4个月,光是内部研发就已经搞了300多万条数据,还有30多万条开源数据,这些都被送到了多家头部企业和科研机构手里。这个基地面积挺大的,有将近5000平方米,里面还有个200平米的专业动作捕捉场地。记者在现场看到,120多台机器人正在模拟家居、商超、办公、工业、医药和康养这些场景进行训练。这些场景可不是死板的样板间,光照和物品摆放都能调整,为的就是让机器人的数据更能泛化。 在一个儿童房场景里,训练师正让机器人把一只反了的袜子翻过来。每完成一个动作,关节角度和运行轨迹这些数据就会被实时记录下来,平均要300到1000次操作才能攒够一个动作的数据。为了防止数据质量参差不齐,基地制定了标准化流程来保证合格率达到95%以上。现在这个中心已经攒够了超过300万条内部研发数据和30多万条开源数据。北京人形机器人创新中心具身天工事业部的负责人蒋未来说,这么做可以帮中小型机器人用户把数据采集成本至少降低50%。 毕竟这家基地是国内场景覆盖最全的机器人数据训练基地之一嘛。