纯视觉路线走到了十字路口，“领先5倍”的狂想曲还没唱完，vla2.0愣是没刹

纯视觉路线走到了十字路口，“领先5倍”的狂想曲还没唱完，VLA2.0就因为一个真实的险情被推到了风口浪尖。马路中间横躺4个孩子，VLA2.0愣是没刹住，好在司机反应快给了一脚急刹才捡回了全车人的命。视频里显示，系统发出减速警告只持续了2秒钟，司机都先看见了险情。这事儿把纯视觉技术在极端场景里的短板暴露无遗：平时看着快且稳，遇到了小概率的倒霉事就容易犹豫，关键时刻可能就刹不下来。这种靠单一摄像头干活的方式太容易出错了，“宁可错刹不可漏刹”才是保命的王道。华为用了乾崑智驾的融合感知技术，多个传感器一起工作搞冗余备份，就算没法100%看清是什么东西也得先把刹车踩下去。Momenta CEO曹旭东给纯视觉开了三服药方：得把训练的侧重点从语言泛化转到预判极端场景上来，否则那些多余的参数都是白费力气；性能提升幅度太小只有3到5倍，达不到规模化落地所需的百倍级跃升；还要学会用世界模型加上强化学习这套新打法。纯视觉路线要想保住性命得赶紧补上漏洞：把摄像头、雷达和高精地图凑在一起三重验证；把历史上的事故、差点出事的情况还有虚拟出来的事故都拉进训练库里；在封闭场地用真车去撞动态的障碍物练极限工况；当系统觉得不安全时就自动把辅助功能关掉，把指挥权还给驾驶员。 VLA2.0的这场风波就像一面镜子，照出了这条路上的光影交错。追求高体验和高安全其实不冲突，但怎么把这两个平衡好还是一道没做完的题。技术革新的脚步不会停，下一轮的比赛已经开始了——谁能让汽车在极端情况下敢踩、会踩、踩得准，谁就能拿到通往L3+级别的门票。