泛化能力是具身智能必须要跨过去的一座大山,table30 v2预览版的首秀

这次RoboChallenge Table30 V2发布的目的,是要把具身智能从实验室的封闭环境里解放出来,直接拿到真机上去接受大规模泛化的考验。这个举动非常关键,因为现在VLA和WMA模型发展得太快了,大家最担心的是,这些模型是不是真的能应付各种复杂的现实情况。我们经常看到一个模型在某个特定的任务上表现得特别好,但换个稍微不一样的场景就不行了。所以,为了搞清楚这一点,Table30 V2就给大家提供了一个标准,看看模型到底是具备通用泛化能力还是被“死记硬背”困住了。 这次评测在三个方面做了很大的改动:任务升级、评测方式升级和系统性能升级。首先是任务方面,以前的任务太简单了,容易让模型只记住一些固定的模式。现在我们给机器人安排了更难的活儿,让它去处理像绳索、布料这种软软的东西,这些东西形状总是在变,特别考验机器人的空间推理能力。另外,还增加了很多需要用工具的任务,比如用钳子去夹东西,还要理解工具和物体在空间里的关系。还有就是双手协作的问题,要求机器人两只手必须配合得非常默契。 硬件上也做了改进。我们引入了新一代的DOS-W1系统,它有个三角尖端的夹具,而且这个新系统还跟经典的Aloha系统一起工作。这样做有两个好处:一是降低了大家进入这个领域的门槛;二是可以同时在两种不同的硬件上运行测试,看看模型在不同机器上到底靠不靠谱。 然后是评测方式的变革。过去大家总是为了拿高分去调参做优化,这种单点突破的做法不适合未来的发展。现在我们要求提交一个通用模型而不是为每个任务专门训练一个模型。我们还引入了零样本测试,不管是物体没见过还是环境没见过甚至是桌子高度变了一点,模型都要自己想办法解决问题。这次测试还分了两层:In-Domain和Out-of-Domain。以前只测在预期范围内的情况现在不行了,我们要把桌面换成沙发这种完全意想不到的环境来测试模型的极限。 最后就是系统性能上的巨大提升。算法迭代速度非常关键,谁的反馈快谁就能抢占先机。为了不让大家老是因为等结果而浪费时间和算力,我们把吞吐量提升了300%。以前的初始状态要求太严导致任务准备时间很长,现在我们放宽了要求变成了粗略对齐这样的方式。另外我们还把完成任务所用的时间(Time to Complete)作为了一个重要的评分指标。 这就是Table30 V2的全部内容。这次发布不仅仅是一个基准测试的诞生,更是给未来的具身智能指引了方向。我们邀请全球的团队和个人开发者一起来参加RoboChallenge CVPR 2026 Workshop竞赛,这也是Table30 V2预览版的首秀。竞赛结束后我们会持续开放评测平台给大家使用。泛化能力是具身智能必须要跨过去的一座大山,Table30 V2就邀请大家一起去攀登吧。END