deepseek的新设计给大模型的推理性能松了绑

DeepSeek和几所顶级大学一块儿搞研究,DualPath这个新设计给大模型的推理性能松了绑。他们发现,大家在做编程任务时,平均要跟AI互动157轮,上下文长度堆到了32.7K个单元,但每轮新增的内容也就429个。这种“增量很小”的特点,让负责存数据的键值缓存(KV-Cache)加载变得特别关键。研究显示,以前的系统资源用得很不对劲:预填充模块的带宽总是爆满,解码模块的带宽却有90%多闲着。像英伟达从Ampere到Blackwell这种架构,虽然算力提升了14.4倍,可显存带宽和容量只涨了不到3倍。这种计算跟存储不匹配的情况,卡死了吞吐量的提升。 为了解决这个问题,研究团队搞出了三招: 第一,控制数据传输的粗细程度,把数据切成不同的块送过去,把网络开销压低到了60%; 第二,把数据流量和计算任务隔离开来,用上中心化控制器和InfiniBand的虚拟通道,保证关键任务不受影响; 第三,让系统自己看着办,根据GPU的负载、网速和任务特征,自动把预填充和解码的资源分配调整好。 用那个有6600亿参数的DeepSeek-V3.2模型测下来,在离线干活儿的时候吞吐量能翻1.87倍,在线服务时处理速度更是直接翻倍。 更厉害的是在一个用了1152块GPU的大集群里做实验。当节点数从8个扩张到144个的时候,性能跑到了理论值的92%,延迟波动也被压在了5%以内。如果把系统配置成44个预填充引擎加上88个解码引擎的话,吞吐量比起老系统能多出22倍。 这一系列成绩不光展示了DeepSeek在这方面的突破,还把未来智能体高效运行的基础给打牢了。随着技术越变越好,相信DualPath架构能在更多地方发挥大作用,推着整个行业往前冲。