纯视觉路线走到了十字路口,“领先5倍”的狂想曲还没唱完,vla2.0愣是没刹

纯视觉路线走到了十字路口,“领先5倍”的狂想曲还没唱完,VLA2.0就因为一个真实的险情被推到了风口浪尖。马路中间横躺4个孩子,VLA2.0愣是没刹住,好在司机反应快给了一脚急刹才捡回了全车人的命。视频里显示,系统发出减速警告只持续了2秒钟,司机都先看见了险情。这事儿把纯视觉技术在极端场景里的短板暴露无遗:平时看着快且稳,遇到了小概率的倒霉事就容易犹豫,关键时刻可能就刹不下来。 这种靠单一摄像头干活的方式太容易出错了,“宁可错刹不可漏刹”才是保命的王道。华为用了乾崑智驾的融合感知技术,多个传感器一起工作搞冗余备份,就算没法100%看清是什么东西也得先把刹车踩下去。Momenta CEO曹旭东给纯视觉开了三服药方:得把训练的侧重点从语言泛化转到预判极端场景上来,否则那些多余的参数都是白费力气;性能提升幅度太小只有3到5倍,达不到规模化落地所需的百倍级跃升;还要学会用世界模型加上强化学习这套新打法。 纯视觉路线要想保住性命得赶紧补上漏洞:把摄像头、雷达和高精地图凑在一起三重验证;把历史上的事故、差点出事的情况还有虚拟出来的事故都拉进训练库里;在封闭场地用真车去撞动态的障碍物练极限工况;当系统觉得不安全时就自动把辅助功能关掉,把指挥权还给驾驶员。 VLA2.0的这场风波就像一面镜子,照出了这条路上的光影交错。追求高体验和高安全其实不冲突,但怎么把这两个平衡好还是一道没做完的题。技术革新的脚步不会停,下一轮的比赛已经开始了——谁能让汽车在极端情况下敢踩、会踩、踩得准,谁就能拿到通往L3+级别的门票。