开源“重思考”人工智能模型，美团发布了第一个完整开源且能在线体验这个模式的模型

我国科技企业最近搞出了一款开源的“重思考”人工智能模型，听说在很多核心能力上都跟国际先进水平差不多。现在人工智能竞争这么激烈，全球都盯着底层核心能力不放，我国企业也在这方面持续投入研发，这次美团的LongCat团队也没落后，发布了这个新模型，叫LongCat-Flash-Thinking-2601，是他们之前模型的升级版。这个模型最大的创新点是引入了一种叫“重思考”的深度推理机制。以前的模型推理都是单一路径的，这次不一样，它把复杂问题分成了“并行思考”和“总结归纳”两个阶段。并行思考阶段，模型能同时启动多条独立的推理路径，从不同角度分析问题，这样就能覆盖更广，避免陷入局部最优解。然后在总结归纳阶段，模型把这些思路整理、优化合成一下，再重新输入进去迭代，形成一个闭环。为了提升总结能力，他们还用了强化学习技术。美团说这是第一个完整开源且能在线体验这个模式的模型。他们提供的数据显示，这个模型在很多基准测试中都拿了第一。比如在代码生成和理解能力的LCB和OIBench EN评测里，得分就很高；在数学推理方面的AIME-25和IMO-AnswerBench里表现也很出色。特别值得一说的是它的工具调用能力和智能体搜索能力。在τ²-Bench、VitaBench这些工具调用评测里，它已经达到当前最高水平了。工具调用是连接模型和现实世界的桥梁，能力强就意味着能更快学会使用新软件工具或API。美团说他们的模型在应对复杂任务时甚至比Claude还好，能帮产业节省适配新工具的时间和成本。在BrowseComp、RW Search这些智能体搜索评测里它也拿了领先成绩。为了测试它在未知场景下的适应能力，也就是泛化能力，研发团队搞了一个自动化任务合成评测方法。这个方法能随机生成复杂任务和工具集来测试它。结果显示在这种动态环境下它还是能保持领先。目前这个模型的代码、权重和文档都在GitHub和Hugging Face上放出来了，免费给大家用。这个开源发布不光是技术突破，也是我国企业参与全球协作的实际行动。“重思考”这个范式给了提升决策质量和可靠性新的思路。以后估计会吸引更多开发者参与进来，让这个技术更快落地到各行各业里去推动实体经济转型。