NVIDIA在AI领域又搞出了个大新闻,他们推出了KVTC技术,号称能把AI内存使用量减少20倍,响应速度提升8倍!这就好比在内存紧张的时候,把“短期内记忆”的东西给压缩一下,直接把GPU内存的瓶颈给松一松。特别是那些对话历史特别长的场景,原来要占用几个GB的内存呢,现在直接能缩小到原来的1%。Adrian Lancucki工程师说,很多时候卡住性能的不是运算能力,而是GPU内存不够用。 这项技术和JPEG压缩很像,通过主成分分析、自适应量化和熵编码这三个步骤就能实现高效压缩。最关键的是它不需要改动模型的核心代码,“非侵入式”设计让企业用起来特别省心。它能利用KV缓存数据之间的高相关性来去除冗余信息,解压的时候还能分块逐层进行,不影响实时回应。经过测试发现,在各种模型上效果都特别好。像参数量从15亿到700亿的LLama3、R1-Qwen2.5这些大模型,就算把内存压缩20倍,准确率几乎不受影响,损失不到1%。而传统方法一压缩到5倍准确率就掉下来了。 还有个数据很亮眼,在H100 GPU上处理8000个Token提示的时候不使用KVTC要3秒才出结果,用上这个技术只需要380毫秒,整整提速8倍!虽然适合长对话和多轮互动场景比如编程助手之类的工作,但在短对话里这压缩的价值就没那么大了。 NVIDIA正准备把KVTC整合进Dynamo框架的KV块管理器里,让它跟vLLM这些主流开源引擎兼容起来。业内人士觉得,以后这技术会像视频压缩一样普及,推动AI应用得更广。