阿里千问发布DeepPlanning基准测试直指全局规划难题顶尖大模型长周期一致性仍待提升

在全球人工智能技术加速迭代的背景下，阿里巴巴研究院于6月15日正式推出深度规划基准测试DeepPlanning，这一创新性测试体系首次将评估维度从传统单点推理扩展至连续性决策领域。

测试设计者通过构建分钟级旅行规划、动态优惠组合等二十余个现实场景，要求被测系统在预算约束、时间限制等多重条件下保持全程最优决策。

技术分析显示，当前最先进的多个大参数模型在72小时连续任务测试中，普遍出现后期决策偏离初始目标的情况。

以跨国旅行规划为例，部分模型在第三天行程安排时出现酒店预算超支或交通接驳失误，暴露出在长期目标维护方面的技术瓶颈。

业内专家指出，这种"规划衰减"现象反映出当前技术更擅长片段式任务，而对跨时空的因果链把握仍显不足。

该测试的推出正值全球人工智能技术向实用化转型的关键阶段。

据统计，2023年全球企业级AI应用中，因规划失误导致的业务损失高达37亿美元。

阿里巴巴技术委员会成员表示，DeepPlanning的开源将推动行业建立统一的评估标准，其发布的模型微调工具包已支持开发者针对长周期任务进行专项优化。

值得关注的是，测试团队在HuggingFace和ModelScope平台同步开放了包含5万组测试用例的数据集，其中30%为具有中国文化特色的本地化场景。

这种开放式创新模式，既有助于提升技术包容性，也为发展中国家参与全球人工智能治理提供了新路径。

前瞻研究表明，随着自动驾驶、智慧城市等复杂系统进入落地阶段，具备持续规划能力的下一代技术预计将在2026年前形成市场规模。

中国科学院自动化研究所专家认为，此次基准测试的推出，标志着人工智能评估体系正从"单项能力考核"向"系统工程验证"转变。

DeepPlanning基准测试的推出和发布，既是对当前AI技术水平的客观评估，也是对未来发展方向的重要指引。

它提醒我们，AI技术的进步不仅体现在单项能力的突破，更需要在系统性、全局性的复杂问题解决上取得突破。

随着这一基准的广泛应用，相信会激发业界在全局规划、长期一致性等关键能力上的深入研究，推动人工智能技术向更加实用、更加可靠的方向发展。

阿里千问发布DeepPlanning基准测试直指全局规划难题 顶尖大模型长周期一致性仍待提升