最近,咱们国家在大模型架构迁移这块儿可是有大动作了。你知道现在最头疼的是什么吗?就是大模型处理长文本的时候能力跟不上,成了拦路虎。就在这个节骨眼上,北京大学人工智能研究院的张牧涵助理教授团队搞出了个叫TransMLA的转化框架,把那些主流的预训练大模型,比如LLaMA、千问这些,给它智能化地转成了高效的多头潜在注意力架构。 大家平时用的那些大模型,像LLaMA-2-7B,基本上都用的是分组查询注意力。企业虽然已经投了不少钱去优化它,但要是想换个新兴的多头潜在注意力架构呢?以前的方法要么得从头再训练一遍,要么就是太费钱、太费时间。这个矛盾简直就是产业升级路上的绊脚石。 这次TransMLA的厉害之处就在于它解决了这个根本问题。它弄了四个核心技术模块一块干活。团队先把分组查询注意力的结构和多头潜在注意力的结构给对上号了,通过一种线性变换,把分组后的键值向量变成了一个单一的低秩潜在表示。然后还给它配了投影矩阵,确保信息能精确地恢复过来。这样一来,架构迁移的基础就稳当了。 再说位置编码这块儿,他们提出了RoRoPE这个新技术方案。把位置编码也给融进低秩压缩的流程里了,就不会像以前那样降维的时候把位置信息给弄丢了。通过旋转维度的折叠和融合,既少用了参数量,又保住了关键的位置信息。 还有个关键的是他们调整了键值矩阵在压缩前的范数分布。这一招大大提高了联合压缩的数值稳定性。信息损失少了,整个迁移过程就更靠谱了。 在实验数据上也很能说明问题:把LLaMA-2-7B模型经过TransMLA转一下,能把键值缓存压缩到68.75%,而且不用重新训练也能保持核心性能基本不变。在32K长序列、FP16精度条件下,用昇腾平台去推理速度比那些用图形处理器的平台快多了。 现在呢,昇腾平台已经把TransMLA集成到了vLLM/SGLang这些高性能推理框架里面去了。这可太省事了,企业用起来成本也降低了。 TransMLA跟昇腾平台算是凑成了一对儿好搭档,把原来那个技术鸿沟给彻底打通了。“零重训、低损失”的目标算是达到了。保留了原有模型的优点不说,还降低了技术升级的门槛。 这就好比是软硬件协同创新的一个样板工程嘛!我国在自主计算和前沿人工智能技术融合这块儿的布局还是很超前的。这对于咱们大模型产业依托自主硬件来降本增效来说可是个实实在在的好消息!对整个行业生态的健全发展肯定有大战略意义的。