四川大学团队提出V²Drop无损压缩视觉Token 推理效率最高提升1.87倍

当前，数字图像与视频数据快速增长，视觉语言模型医疗影像分析、自动驾驶、智能监控等场景中的落地需求不断上升；但在处理高分辨率图像和长视频时，传统模型面临明显瓶颈——视觉Token数量过大带来计算量飙升，直接影响推理效率与部署成本。业内专家指出，现有方案多依靠注意力权重筛选Token，但普遍存在两点不足：其一，容易对序列末端Token产生偏置，导致前段关键信息被忽略；其二，与部分高效计算架构适配性不佳，使得提速空间受限。因此，传统方法往往难以同时兼顾精度与速度。针对此痛点，四川大学计算机科学团队研究发现，视觉Token在不同网络层之间的变化幅度与其任务有关性存在显著联系。基于这一观察，团队提出L2Norm变化量评估方法，并开发了V²Drop多阶段渐进式剪枝算法。该方法通过动态监测Token变化特征，实现对关键信息的更准确识别与保留。实验结果显示，该技术在多项指标上取得良好表现：在图像理解任务中，仅保留约三分之二Token即可达到原始性能的97.6%；在视频处理场景下，仅保留四分之一Token仍可维持98.6%的准确率。同时，模型响应速度提升31.5%，单位时间处理能力达到9.01项/秒，相比传统方案有明显提升。业内分析认为，这项工作带来多上价值：一是降低视觉语言模型部署时的效率门槛；二是提供了以动态变化量评估Token价值的新思路；三是其方法设计对多模态系统的推理加速与成本优化具有参考意义。随着5G普及与8K视频应用推进，该技术有望在远程医疗、工业质检等场景率先实现规模化应用。

让模型不仅“算得动”，更要“算得快、算得省”，是视觉理解技术走向大规模应用必须解决的问题。V²Drop以更贴近表征变化的指标衡量Token价值，为长序列推理提供了可落地的降本增效路径。随着涉及的方法在更多真实场景中持续验证与迭代，视觉理解有望在效率与质量之间获得新的平衡，并为产业升级与公共服务提供更稳固的技术支撑。