四川大学团队提出V²Drop无损压缩视觉Token 推理效率最高提升1.87倍

当前,数字图像与视频数据快速增长,视觉语言模型医疗影像分析、自动驾驶、智能监控等场景中的落地需求不断上升;但在处理高分辨率图像和长视频时,传统模型面临明显瓶颈——视觉Token数量过大带来计算量飙升,直接影响推理效率与部署成本。业内专家指出,现有方案多依靠注意力权重筛选Token,但普遍存在两点不足:其一,容易对序列末端Token产生偏置,导致前段关键信息被忽略;其二,与部分高效计算架构适配性不佳,使得提速空间受限。因此,传统方法往往难以同时兼顾精度与速度。针对此痛点,四川大学计算机科学团队研究发现,视觉Token在不同网络层之间的变化幅度与其任务有关性存在显著联系。基于这一观察,团队提出L2Norm变化量评估方法,并开发了V²Drop多阶段渐进式剪枝算法。该方法通过动态监测Token变化特征,实现对关键信息的更准确识别与保留。实验结果显示,该技术在多项指标上取得良好表现:在图像理解任务中,仅保留约三分之二Token即可达到原始性能的97.6%;在视频处理场景下,仅保留四分之一Token仍可维持98.6%的准确率。同时,模型响应速度提升31.5%,单位时间处理能力达到9.01项/秒,相比传统方案有明显提升。业内分析认为,这项工作带来多上价值:一是降低视觉语言模型部署时的效率门槛;二是提供了以动态变化量评估Token价值的新思路;三是其方法设计对多模态系统的推理加速与成本优化具有参考意义。随着5G普及与8K视频应用推进,该技术有望在远程医疗、工业质检等场景率先实现规模化应用。

让模型不仅“算得动”,更要“算得快、算得省”,是视觉理解技术走向大规模应用必须解决的问题。V²Drop以更贴近表征变化的指标衡量Token价值,为长序列推理提供了可落地的降本增效路径。随着涉及的方法在更多真实场景中持续验证与迭代,视觉理解有望在效率与质量之间获得新的平衡,并为产业升级与公共服务提供更稳固的技术支撑。