MLPerf推理基准最新结果出炉：英特尔Arc Pro B70性能跃升80%，软硬协同强化企业级推理能力

问题——随着大模型搜索、办公、客服、研发等场景加速落地，行业对推理能力的要求已从“能跑”转为“跑得快、跑得稳、跑得省”；在这个背景下，单看芯片峰值算力已难以反映真实部署效果，多卡扩展能力、显存容量、平台兼容性和软件优化水平，正成为企业评估推理平台的关键指标。如何在可控成本下支持更大模型、更长上下文和更高吞吐，成为行业普遍面临的现实问题。原因——一上，推理负载正向更大参数规模、更复杂的解码策略和更长上下文窗口演进，显存容量与带宽的瓶颈更容易暴露；另一方面，从模型加载、任务编排到数据搬运，推理链路对系统协同依赖更强，CPU内存管理、作业调度、吞吐稳定性以及总体拥有成本诸上的重要性上升。此外，软件栈对算子融合、量化、内核调优和容器化部署的适配程度，往往直接决定同一硬件在真实业务中的可用性能。影响——从此次MLPerf Inference v6.0披露的信息看，英特尔以“硬件迭代+软件增益”推动推理能力提升：新发布的Arc Pro B70/B65采用新一代芯片平台，在四卡系统中最高可提供128GB显存配置，面向超大参数模型推理需求，官方称相较上一代Arc Pro B60推理性能提升约80%；同时，根据既有产品提升软件，使Arc Pro B60等存量GPU在同一基准下获得约18%的性能提升。其直接意义在于：对新增采购方，性能密度与可扩展性更强；对存量用户，投资保护与持续可用性更高，有助于降低更新换代带来的迁移成本。对策——在平台层面，英特尔强调打造“可验证的软硬一体推理平台”，通过面向Linux的容器化部署降低落地复杂度，并以多GPU扩展与PCIe点对点传输等方式提升数据流转效率；在可靠性与运维层面，引入ECC、SR-IOV、遥测与远程固件更新等企业级特性，以满足数据中心对稳定运行和集中管理需求。值得关注的是，英特尔也提交了Xeon 6处理器的MLPerf推理成绩，突出AMX、AVX-512等指令与矩阵能力对推理的支撑作用，并称代际性能提升明显。其核心逻辑在于：推理不是单一“加速器竞赛”，CPU承担集群效率、任务编排与资源调度等关键环节，CPU与GPU协同有助于在吞吐、时延与能耗之间取得更好的平衡。前景——从产业趋势看，推理市场正加速分化：一类追求极致性能的超大规模集群继续扩张；另一类更强调成本、能效与可运维性的“企业级推理”需求同步增长。以MLPerf为代表的公开基准，正在成为厂商展示能力、争夺生态影响力的重要窗口。未来一段时间，围绕显存容量、上下文窗口支持、软件栈成熟度以及多卡互连效率的竞争预计会更为激烈。谁能在“硬件升级”之外持续释放“软件红利”，并形成覆盖开发、部署到运维的闭环能力，谁就更可能在推理规模化落地中占据优势。

人工智能的快速发展持续抬高对计算硬件的要求。英特尔此次进展不仅说明了性能提升，也反映了其在AI软硬件协同上的长期投入。随着协同优化更推进，AI计算的效率与落地门槛有望继续改善，为各行业的智能化应用提供更强支撑。