deepseek的新设计给大模型的推理性能松了绑

DeepSeek和几所顶级大学一块儿搞研究，DualPath这个新设计给大模型的推理性能松了绑。他们发现，大家在做编程任务时，平均要跟AI互动157轮，上下文长度堆到了32.7K个单元，但每轮新增的内容也就429个。这种“增量很小”的特点，让负责存数据的键值缓存（KV-Cache）加载变得特别关键。研究显示，以前的系统资源用得很不对劲：预填充模块的带宽总是爆满，解码模块的带宽却有90%多闲着。像英伟达从Ampere到Blackwell这种架构，虽然算力提升了14.4倍，可显存带宽和容量只涨了不到3倍。这种计算跟存储不匹配的情况，卡死了吞吐量的提升。为了解决这个问题，研究团队搞出了三招：第一，控制数据传输的粗细程度，把数据切成不同的块送过去，把网络开销压低到了60%；第二，把数据流量和计算任务隔离开来，用上中心化控制器和InfiniBand的虚拟通道，保证关键任务不受影响；第三，让系统自己看着办，根据GPU的负载、网速和任务特征，自动把预填充和解码的资源分配调整好。用那个有6600亿参数的DeepSeek-V3.2模型测下来，在离线干活儿的时候吞吐量能翻1.87倍，在线服务时处理速度更是直接翻倍。更厉害的是在一个用了1152块GPU的大集群里做实验。当节点数从8个扩张到144个的时候，性能跑到了理论值的92%，延迟波动也被压在了5%以内。如果把系统配置成44个预填充引擎加上88个解码引擎的话，吞吐量比起老系统能多出22倍。这一系列成绩不光展示了DeepSeek在这方面的突破，还把未来智能体高效运行的基础给打牢了。随着技术越变越好，相信DualPath架构能在更多地方发挥大作用，推着整个行业往前冲。