1月29日,宇树科技将自家研发的UnifoLM-VLA-0通用人形机器人操作模型开源了,这让大家对我国在机器人多任务自主操作上的进步有了新的认识。这次操作模型的发布,给咱们国家在这个领域里打了一针强心剂。UnifoLM-VLA-0是基于Qwen2.5-VL-7B这个开源基础模型做出来的,通过一些技术创新和数据优化,它就把对复杂任务的处理给搞定了。以前咱们搞机器人操作时老遇到指令理解不清楚、空间感知不足这些头疼的问题,宇树科技这次就专门针对这些挑战做了文章。他们把视觉语言动作模型进行了深度优化,让模型在理解文本指令的时候,还能把高精度的2D/3D空间细节给融合进来。这么一来,机器人们在动起来的时候就能更好地理解环境了。团队还准备了一大堆涵盖机器人和普通场景的多任务数据集,把这些数据系统性地清洗干净,保证了训练时用的数据既多样又有质量。研发过程里他们只用了大约340小时的真机数据去做离散动作预测训练,这也说明他们在数据效率上挺有优势。 在技术验证的时候,这个模型在LIBERO仿真基准测试中表现得非常好,几乎是最佳水平了。真机实验也证实了它的本事:只用一种策略就能高质量地完成抓取、放置、装配这些多达12类的复杂任务,通用性和适应性都很强。宇树科技觉得这事儿不光降低了多任务开发的成本和门槛,以后还能帮咱们把人形机器人应用到工业和服务这些大场景里去。现在全球的机器人技术都在往通用化、智能化的方向狂奔,我国在算法和硬件集成上早就有底子了。这次把模型开源出来,估计能把产学研各方在操作系统和自主决策这些关键技术上的协同创新给推起来。 专家说这个通用操作模型的突破,会让智能制造、家庭服务还有医疗辅助这些地方的人形机器人更快落地。它也帮咱们国家在全球科技竞争里抢了个先手。UnifoLM-VLA-0的开源也是咱们企业推动技术共享和生态建设的一个重要实践。接下来肯定还会有更多创新成果冒出来,给咱们的经济社会发展注入更多智能化的新动能。