嘿,你听说没?谷歌最近搞了个大新闻,他们说能把一种叫KV缓存的东西压缩到6倍!结果这一消息一出,本来就有点低迷的存储芯片板块直接就低开低走了。3月26号那天,普冉股份、佰维存储和兆易创新跌得特别猛,超过了5%,江波龙和北京君正也跟着一块儿往下掉。 就在这个时候,当地时间周三美股那边的存储股也没闲着,盘中跌得挺惨的,不过收盘的时候跌幅稍微收窄了点儿。像闪迪、美光这种大块头公司收盘时跌了3.4%,希捷跌了2.6%,西部数据相对好一点,才跌了1.6%。 消息传出来后,好多人都说是谷歌干的。这家AI巨头早些时候搞出了一种叫TurboQuant的压缩算法,专门用来降低AI系统的内存需求。谷歌说这个算法主要是为了解决大语言模型和向量搜索引擎的内存瓶颈问题。你想啊,随着上下文窗口越来越大,KV缓存里存的数据也越来越多,这就是最大的内存消耗点啊。 TurboQuant厉害的地方在于它不用重新训练模型也不用微调,就能把KV缓存压缩到3位精度,而且准确率基本没什么损失。他们拿Gemma和Mistral这些开源模型做了测试,发现能把内存压缩到6倍左右。在英伟达H100加速器上的表现也很不错,速度提升最高能有8倍。研究人员还说这个技术不光能用在AI模型上,对支撑大规模搜索引擎的向量检索也很有帮助。 谷歌还打算在4月的ICLR 2026会议上展示这个技术呢。富国银行有个TMT分析师Andrew Rocha是这么解读的:随着上下文窗口扩大,KV缓存里的数据规模就像爆炸一样增长,把内存需求推得很高。TurboQuant正好是在直接压缩这部分成本曲线。要是这技术真能广泛用上,对内存成本曲线肯定是好事。不过他也说了,目前还不清楚这个技术到底能不能推给别的AI实验室用,还有实验室里的测试结果能不能在真实环境里用得上,这些都还不一定呢。