我国科技企业最近搞出了一款开源的“重思考”人工智能模型,听说在很多核心能力上都跟国际先进水平差不多。现在人工智能竞争这么激烈,全球都盯着底层核心能力不放,我国企业也在这方面持续投入研发,这次美团的LongCat团队也没落后,发布了这个新模型,叫LongCat-Flash-Thinking-2601,是他们之前模型的升级版。这个模型最大的创新点是引入了一种叫“重思考”的深度推理机制。以前的模型推理都是单一路径的,这次不一样,它把复杂问题分成了“并行思考”和“总结归纳”两个阶段。并行思考阶段,模型能同时启动多条独立的推理路径,从不同角度分析问题,这样就能覆盖更广,避免陷入局部最优解。然后在总结归纳阶段,模型把这些思路整理、优化合成一下,再重新输入进去迭代,形成一个闭环。为了提升总结能力,他们还用了强化学习技术。美团说这是第一个完整开源且能在线体验这个模式的模型。他们提供的数据显示,这个模型在很多基准测试中都拿了第一。比如在代码生成和理解能力的LCB和OIBench EN评测里,得分就很高;在数学推理方面的AIME-25和IMO-AnswerBench里表现也很出色。 特别值得一说的是它的工具调用能力和智能体搜索能力。在τ²-Bench、VitaBench这些工具调用评测里,它已经达到当前最高水平了。工具调用是连接模型和现实世界的桥梁,能力强就意味着能更快学会使用新软件工具或API。美团说他们的模型在应对复杂任务时甚至比Claude还好,能帮产业节省适配新工具的时间和成本。 在BrowseComp、RW Search这些智能体搜索评测里它也拿了领先成绩。为了测试它在未知场景下的适应能力,也就是泛化能力,研发团队搞了一个自动化任务合成评测方法。这个方法能随机生成复杂任务和工具集来测试它。结果显示在这种动态环境下它还是能保持领先。 目前这个模型的代码、权重和文档都在GitHub和Hugging Face上放出来了,免费给大家用。这个开源发布不光是技术突破,也是我国企业参与全球协作的实际行动。“重思考”这个范式给了提升决策质量和可靠性新的思路。以后估计会吸引更多开发者参与进来,让这个技术更快落地到各行各业里去推动实体经济转型。