(问题)近年来,生成式技术加速进入办公、编程、客服、检索问答等场景,但推理端“等得久、用得贵”已成为规模化落地的主要瓶颈;长期以来,主流语言模型多采用自回归方式逐词元输出,生成越长,延迟与成本往往越高。实时对话、多轮检索、长文改写、代码补全等高频场景中,速度与费用直接影响用户体验和商业可行性,行业需要新的推理路径,突破“串行输出”的限制。 (原因)Mercury2引发关注,关键在于其采用扩散推理思路:不再依赖逐个词元“排队生成”,而是先形成整体草稿,再通过并行迭代对文本进行整体校正与收敛,从而明显缩短等待时间。第三方测评显示,该模型输出速度可达每秒1009个词元,在同类产品中处于领先水平,较部分主流模型提升达数倍。同时,它在若干基准测试中的得分不低于、甚至超过一些以性能见长的轻量化模型,显示并行推理在提速的同时具备保持质量的可能。公开信息还显示,Mercury2支持128K长上下文窗口,输入价格约为每百万词元0.25美元、输出约为每百万词元0.75美元,反映其也在成本侧寻求新的竞争点。 (影响)一是推动“即时生成”应用更快落地。推理更快意味着交互产品可从“等回答”转向“边用边协作”,例如实时会议纪要生成、长文即时润色、复杂代码快速迭代等,有望继续提升人机协同效率。二是改变算力与成本结构。扩散推理将部分计算从串行转为并行,若在硬件与工程层面得到更好适配,单位时间吞吐量提升可能带来更低的边际成本,为中小企业和开发者扩大使用范围提供条件。三是带来评测重点的变化。传统比较更强调参数规模、单次准确率;当速度优势显著时,响应延迟、吞吐能力、长上下文稳定性,以及在真实业务链路中的综合表现将更关键。四是推动产业路线多元化。自回归路线仍拥有成熟生态与工具链优势,但Mercury2的进展意味着“并行推理”可能成为新的增长点,并进一步带动芯片优化、编译加速、服务部署等上下游环节的竞争。 (对策)业内人士认为,围绕新推理架构的竞争将从单纯“拼速度”转向“速度与可靠性并重”。一上,企业引入高速模型时应建立端到端评估体系,将事实一致性、代码可执行率、长文本偏差累积、对齐与安全等纳入测试,避免“快而不稳”。另一上,应加强工程化适配与基础设施建设,通过并行计算调度、缓存与检索增强、提示词与任务分解优化等手段,充分释放架构带来的效率收益。监管与行业组织也可推动更透明的评测与标注规范,在公开基准之外引入更贴近行业的数据集和压力测试,提升可比性与可追溯性。 (前景)从技术演进看,生成式模型正从“训练规模竞赛”转向“推理效率竞赛”。随着模型服务在政务、金融、制造、教育等领域深入应用,低延迟、高吞吐、低成本将成为关键指标之一。如果扩散推理在文本与代码场景的商业化探索持续取得进展,未来可能与自回归路线长期并存:前者在实时交互和高并发场景中更具优势,后者在复杂推理链路、生态兼容与特定任务上继续迭代。可以预见,推理架构的创新将加速产业分化与重组,也将推动应用从“能用”走向“更好用、用得起、用得顺”。
技术路线的变化正在重塑生成式模型的效率边界。Mercury2所代表的并行推理思路,试图同时缓解等待时间和使用成本带来的约束,并为文本与代码生成提供新的工程可能。在全球数字化转型提速的背景下,这类基础能力的突破可能影响产业标准与竞争格局,其后续进展仍值得持续关注。创新的下一步,将决定智能应用能走多远、落得多快。