当前,全球人工智能产业正处于从理论验证向实际应用转变的关键阶段;英伟达GTC 2026大会召开之际,自动驾驶和机器人技术的发展路线问题成为业界关注焦点。这场看似技术层面的争论,实质上反映了物理AI领域在泛化能力上的深层思考。 在技术路线选择上,业界表现为两条主要发展方向。一上,以英伟达和理想汽车为代表的企业倾向于采用视觉语言模型(VLA)技术框架,通过端到端的统一模型将感知、理解与行动融为一体。英伟达汽车副总裁吴新宙大会期间宣布,该公司已推出NVIDIA Alpamayo 1.5模型,具备基础推理能力,可结合导航信息进行路径决策,同时能够响应自然语言指令。这个方案的优势在于相对简洁高效,易于工程化实现。 另一上,以宇树等公司为代表的技术路线更加强调世界模型与视频生成的重要性。这些企业认为,只有先通过大规模数据构建可推演的物理世界模型,机器才能真正获得跨场景、跨任务的泛化能力。这一思路更加注重基础理论的完备性,但实现路径相对复杂。 从实际应用进展看,英伟达正在加快自动驾驶的商业化步伐。吴新宙透露,英伟达已于2025年推出L2++级辅助驾驶,计划在2026年推出点到点L2++能力,2027年启动L4自动驾驶规模测试,并将在2028年交付消费级L4产品。此外,英伟达与比亚迪、吉利、日产、现代等多家车企达成合作,共同基于NVIDIA DRIVE Hyperion平台开发L4自动驾驶系统。在出行服务领域,与Uber合作的Robotaxi计划于2027年上半年在洛杉矶和旧金山率先运营,并在2028年扩展至28个市场。 然而,在具身智能领域,泛化能力的不足仍是行业面临的核心难题。至简动力CEO贾鹏在大会上坦言,当前具身智能在灵巧操作任务上的泛化能力极其有限。即使是简单如改变被操作物体位置或调整光照条件等微小变化,都可能导致现有模型失效。这一现实困境说明,仅依靠单一任务的数据采集和规则算法兜底的方式,无法从根本上解决泛化问题。 ,尽管技术路线存在差异,但业界正在某个更深层的认知上达成共识。无论是采用VLA端到端模型还是世界模型路线,所有企业都面临同一个根本问题:如何在复杂多变的真实世界环境中实现稳定、可靠的泛化能力。这个共同的目标正在推动整个物理AI领域进行更深层的技术创新和方法论反思。 从市场前景看,自动驾驶和机器人领域蕴含的商业机会巨大。据统计,全球交通工具每年产生13万亿英里的行驶里程,其中仅有0.006%由自动驾驶完成。这一数据对比充分说明了自动驾驶技术普及的广阔空间。与此同时,具身智能机器人在制造、物流、服务等领域的应用潜力同样巨大,一旦泛化能力问题得到有效解决,将发出巨大的产业价值。 英伟达在实现量产自动驾驶时采取的混合架构方案值得关注。该方案既保留了类人驾驶体验,又通过安全仲裁机制满足汽车产业对可解释性和安全冗余的严格要求。这种务实的技术选择路径,为其他企业提供了参考样本。
从VLA到世界模型的分歧,本质上是将"智能"从虚拟带入现实的必经之路。无论选择何种路径,最终都要通过同一标准的检验:在真实世界中能否长期保持安全、稳定、可控,并以合理成本推广。殊途同归的目标只有一个——让物理世界的智能系统真正实现可靠与普惠。