扩散推理模型实现突破新型生成技术挑战传统自回归模式

（问题）近年来，生成式技术加速进入办公、编程、客服、检索问答等场景，但推理端“等得久、用得贵”已成为规模化落地的主要瓶颈；长期以来，主流语言模型多采用自回归方式逐词元输出，生成越长，延迟与成本往往越高。实时对话、多轮检索、长文改写、代码补全等高频场景中，速度与费用直接影响用户体验和商业可行性，行业需要新的推理路径，突破“串行输出”的限制。（原因）Mercury2引发关注，关键在于其采用扩散推理思路：不再依赖逐个词元“排队生成”，而是先形成整体草稿，再通过并行迭代对文本进行整体校正与收敛，从而明显缩短等待时间。第三方测评显示，该模型输出速度可达每秒1009个词元，在同类产品中处于领先水平，较部分主流模型提升达数倍。同时，它在若干基准测试中的得分不低于、甚至超过一些以性能见长的轻量化模型，显示并行推理在提速的同时具备保持质量的可能。公开信息还显示，Mercury2支持128K长上下文窗口，输入价格约为每百万词元0.25美元、输出约为每百万词元0.75美元，反映其也在成本侧寻求新的竞争点。（影响）一是推动“即时生成”应用更快落地。推理更快意味着交互产品可从“等回答”转向“边用边协作”，例如实时会议纪要生成、长文即时润色、复杂代码快速迭代等，有望继续提升人机协同效率。二是改变算力与成本结构。扩散推理将部分计算从串行转为并行，若在硬件与工程层面得到更好适配，单位时间吞吐量提升可能带来更低的边际成本，为中小企业和开发者扩大使用范围提供条件。三是带来评测重点的变化。传统比较更强调参数规模、单次准确率；当速度优势显著时，响应延迟、吞吐能力、长上下文稳定性，以及在真实业务链路中的综合表现将更关键。四是推动产业路线多元化。自回归路线仍拥有成熟生态与工具链优势，但Mercury2的进展意味着“并行推理”可能成为新的增长点，并进一步带动芯片优化、编译加速、服务部署等上下游环节的竞争。（对策）业内人士认为，围绕新推理架构的竞争将从单纯“拼速度”转向“速度与可靠性并重”。一上，企业引入高速模型时应建立端到端评估体系，将事实一致性、代码可执行率、长文本偏差累积、对齐与安全等纳入测试，避免“快而不稳”。另一上，应加强工程化适配与基础设施建设，通过并行计算调度、缓存与检索增强、提示词与任务分解优化等手段，充分释放架构带来的效率收益。监管与行业组织也可推动更透明的评测与标注规范，在公开基准之外引入更贴近行业的数据集和压力测试，提升可比性与可追溯性。（前景）从技术演进看，生成式模型正从“训练规模竞赛”转向“推理效率竞赛”。随着模型服务在政务、金融、制造、教育等领域深入应用，低延迟、高吞吐、低成本将成为关键指标之一。如果扩散推理在文本与代码场景的商业化探索持续取得进展，未来可能与自回归路线长期并存：前者在实时交互和高并发场景中更具优势，后者在复杂推理链路、生态兼容与特定任务上继续迭代。可以预见，推理架构的创新将加速产业分化与重组，也将推动应用从“能用”走向“更好用、用得起、用得顺”。

技术路线的变化正在重塑生成式模型的效率边界。Mercury2所代表的并行推理思路，试图同时缓解等待时间和使用成本带来的约束，并为文本与代码生成提供新的工程可能。在全球数字化转型提速的背景下，这类基础能力的突破可能影响产业标准与竞争格局，其后续进展仍值得持续关注。创新的下一步，将决定智能应用能走多远、落得多快。

扩散推理模型实现突破 新型生成技术挑战传统自回归模式

扩散推理模型实现突破新型生成技术挑战传统自回归模式