大模型落地的下半场比拼的不再是看谁家参数大，而是看谁能在单位token上创造更多价值。

说到最近大模型这块儿，蚂蚁数科可没闲着，在3月26日的中关村论坛上，他们终于亮出了自家的牌。那天，技术创新部总经理章鹏直接跟大伙交底了，说OpenClaw那种自己动手执行任务的智能体（也就是Agent）火得一塌糊涂，这其实是个信号，意味着AI应用已经不再光靠你问我答那么简单了，而是要真刀真枪地去干活了。不过话说回来，这种自主执行的Agent虽然市场需求大，可真落到产业里其实挺难搞的。因为它们不太懂具体的行业规矩和业务流程，执行起复杂任务来经常得瞎折腾工具，导致用掉的Token（也就是调用次数）多得出奇。据我所知，在那些高频调用的场景里，OpenClaw的开销可能是传统集成式Agent的几十倍甚至上百倍。这种高投入低产出的模式，要想在产业里大面积铺开显然是行不通的。章鹏说大模型落地的下半场比拼的不再是看谁家参数大，而是看谁能在单位Token上创造更多价值。企业得根据实际情况挑选方案，没必要非用那种最大的大模型。就拿金融行业来说吧，这儿每天得处理海量的高频低延迟任务，比如快速识别意图、提取关键信息、检索排序等等。这些活儿对响应速度和精准度要求极高，但传统的行业推理大模型能力虽强，用在这里却有点像“杀鸡用牛刀”，成本高响应还慢。我们真正想要的解决方案得是专业严谨还得合规，同时还要性价比高、响应快。他觉得大参数模型在做复杂推理和深度分析上更在行，而小参数模型在高频小任务场景下延迟低、性价比高。产业必须得把这两种方案结合起来用才行。在论坛上蚂蚁数科还正式发布了Ling-DT-Fin-Mini-2.5这款轻量级的金融专用模型。这是Ling DT系列的第一款迷你版大模型。据介绍这是个MoE（混合专家）模型，基于最新的混合线性注意力架构打造的。针对金融领域那些高并发、低时延的活儿进行了专门优化。它既保证了专业深度又能把推理成本压到可以规模化部署的水平。对比市面上同能力的通用模型，它的推理速度快了100%，处理同样多的任务硬件成本也降了不少。这对金融机构来说绝对是实实在在的降本增效。实际上现在智能体都在往产业核心场景里钻了，大小模型结合这种打法已经成了行业趋势。像OpenAI最近也没闲着，推出了GPT-5.4 mini和nano两款小模型专门主打低延迟和高性价比。它们就是当执行层子智能体的主力用的。章鹏最后总结说技术发展总归是要回归到产业对效率的理性要求上来。下一阶段的竞争核心就是看谁能在Token效能上占优。蚂蚁数科会继续深耕企业级AGI（通用人工智能），还要推出更多像百灵企业版这样的Ling DT大模型及其行业版产品，加速让智能体在企业级复杂场景里落地生根。