当用户跟AI聊天机器人聊得久了,就会觉得它们变得越来越笨,而微软的研究把这种感觉给证实了。这次Windows Central报道说,微软研究院跟赛富时联合搞了个大动作,结果发现就连现在最强的那些大语言模型,在多轮对话里的可靠性也会大跌65%,错误率更是涨了112%。 研究人员找来了包括GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1和Llama 4在内的15款顶尖模型,做了超过20万次的模拟对话分析。他们发现这些模型在处理单次提示任务的时候,成功率高达90%,可一旦把同样的任务拆分成多轮自然对话,成功率立马就掉到了大约65%。这说明AI大模型本身的“智力”并没有掉太多,只降了大概15%,但它的“不可靠性”却猛涨了112%。这就好比AI的脑子还是灵光的,但在连续说话的时候就会变得很飘,很难一直记住上下文。 造成这种情况的主要原因有两个:一个是“过早生成”。模型有时候还没等用户把话说全,就急着给出最终答案。如果一开始就搞错了假设(也就是第一印象),后面它就会顺着这个错误往下想,而不是根据新信息去修正,结果错的地方就会越变越大。另一个是“答案膨胀”。在多轮对话中,模型给出的回复长度比单轮时长了20%到300%。说得越长,里面瞎猜的成分就越多,这些瞎猜的话被放到上下文里以后,就会把后面的推理给带跑偏。 有意思的是,那些号称能“思考”的新推理模型,比如OpenAI的o3和DeepSeek R1,也没能在多轮对话里翻身。研究人员还发现,哪怕把温度参数设成0来保证答案一致,也没能挡住这种衰退。这其实是在告诉大家现在的评估方法不行了。 对那些想用AI来做复杂流程或智能体的开发者来说,这个消息挺扎心的。现在最管用的招儿反而是少来回折腾交流次数,把所有该说的话都一次性说完,这样输出才能稳当点。 内容由AI智能生成 IT之家消息:当用户与AI聊天机器人进行长对话时,可能会感觉它们变得越来越“笨”,而这种感觉如今有了科学依据。据Windows Central今日报道,微软研究院与赛富时(Salesforce)联合发表的一项研究证实,即使是目前最先进的大语言模型,在多轮对话中的可靠性也会急剧下降。研究人员对包括GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1和Llama 4在内的15款顶尖模型进行了超过20万次模拟对话分析,揭示出一个被称为“迷失会话”的系统性缺陷。数据显示,这些模型在单次提示任务中的成功率可达90%,但当同样的任务被拆解成多轮自然对话后,成功率骤降至约65%。研究指出,模型的“智力”本身并未显著下降——其核心能力仅降低约15%——但“不可靠性”却飙升112%。也就是说,AI大模型仍然具备解决问题的能力,但在多轮对话中变得高度不稳定,难以持续跟踪上下文。报告指出,当前大多数模型主要在“单轮”基准测试下进行评估,即一次性接收全部指令的理想实验环境。但现实中的人类交流通常是渐进式的,信息在多轮互动中逐步补充。研究发现,一旦任务被“拆分”到多个回合中,即便是最先进的模型,也容易出现系统性失误。研究人员进一步分析了造成性能下降的行为机制。 首先是“过早生成”:模型往往在用户尚未完整说明需求前就尝试给出最终答案。一旦在早期回合中形成错误假设(可能是指第一印象),模型后续便会在该错误的基础上继续推理,而不是随着新信息的加入进行修正,从而导致错误逐步放大。 其次是“答案膨胀”。在多轮对话中,模型的回复长度比单轮对话增加了20%至300%。更长的回答往往包含更多假设与“幻觉”,这些内容随后被纳入对话的持续上下文,从而进一步影响后续推理的准确性。 令人意外的是,即使是配备了额外“思考词元”(thinking tokens)的新一代推理模型,如OpenAI o3和DeepSeek R1,也未能显著改善在多轮对话中的表现。研究还发现,将模型温度参数设置为0——这一常用于确保一致性的技巧——对此类对话衰减几乎没有防护作用。这一发现对当前AI行业的评估方式提出了质疑。研究人员指出,现有的基准测试主要基于理想的单轮场景,忽略了模型在真实世界中的行为。对于依赖AI构建复杂对话流程或智能体的开发者而言,这一结论意味着严峻挑战。目前最有效的应对方式反而是减少多轮往返交流,将所有必要数据、约束条件和指令一次性在单个完整提示中提供,以提高输出一致性。