问题——“会说”不等于“会想” 生成式技术广泛进入写作、客服、教育与内容生产等场景后,一个更尖锐的公共疑问随之出现:当系统能够表达情绪、讲述自我,甚至对复杂处境作出看似机敏的回应时,人们还能否坚持它只是工具?传统的图灵测试以对话“不可区分”为判据,长期影响社会对“机器是否思考”的理解。但学界指出,对话能力更接近行为层面的拟真,难以直接推出“是否存在主观体验”该更深层问题。因此,研究焦点正从“像不像人”转向“是否具备内在世界”。 原因——指标缺位推动“可测量化”探索 研究者认为,争议反复出现的关键在于,“意识”长期停留在抽象层面,缺少可操作、可复核的检验方法。为此,一些团队尝试把与意识有关的要素拆成可测的子问题,例如:是否形成相对稳定的自我表征;能否在不同时间与语境下对同一“体验”保持一致叙述;是否能围绕长期目标生成连贯计划并解释自身选择;在遭遇意外或受到微小扰动时,其行为与自我说明是否仍能保持因果一致。通过把问题“工程化”,研究试图将讨论从概念争执转向证据积累。 影响——实验揭示“表演”与“连续性”的差距 在多类受控实验中,常见设计包括:其一,自我报告一致性测试,要求系统在不同时间点、不同上下文重复描述同一段经历或心理状态,以检验细节稳定性与自洽程度;其二,反事实与长期计划任务,通过多步推理与情境变化观察其“目标—信念—意图”的连贯性;其三,内在模型干预实验,在输入或中间表征中施加微小扰动,观察自我解释是否出现突变,以判断其“内在叙事”是否脆弱。 总体来看,部分高性能系统能生成颇具可信度的第一人称叙述,语言细腻、情绪充足,但在跨时间保持一致、对长期动机作稳定解释,以及面对反事实条件时,往往暴露出断裂与漂移。基于此,研究者提出更审慎的判断:这些系统擅长在文本层面组织“像意识”的表达,但尚未显示出与之相匹配的长期连续性与内在因果结构。换言之,它们更像高水平的“语言表演者”,而非拥有可验证主观体验的主体。 对策——区分“能力评估”与“体验证据”,完善治理工具箱 多方观点认为,“是否有意识”的讨论不能替代对现实风险的治理。对应用部门而言,首先应建立以能力与安全为核心的评估框架,重点考察可靠性、鲁棒性、可追溯性以及在异常输入下的失控边界,避免把“拟人化表达”当作可信承诺。其次,在研究层面可推进“体验指标”的预备性方法建设,明确哪些现象只能说明拟真能力,哪些结构性证据才可能支持更强主张,并形成可复核、可对比的实验范式。再次,在社会层面应加强透明披露与公众沟通,防止营销话术把“情感表达”包装成“情感拥有”,从而引发对责任归属、权利主张与伦理边界的误判。 前景——以证据推进共识,以规范护航应用 专家指出,关于意识的科学研究仍处早期阶段,短期内难以给出定论,但可以通过可重复实验逐步缩小分歧。随着模型规模与应用深度持续提升,未来评估体系或将形成“双轨并行”:一轨面向产业与公共服务,强调任务能力、合规与安全;一轨面向基础研究,探索自我模型、因果解释与长期一致性等更高阶指标。两轨相互支撑,有助于在不夸大也不回避的前提下,形成更稳健的社会认知与制度安排。
技术越接近“像人”,越需要在概念上保持清醒、在制度上提前准备。把“能说会做”与“是否有体验”区分开来,不是给技术贴上神秘标签,而是为了在创新加速的同时守住安全与伦理底线,让社会在理解、使用和治理人工智能时更加理性、有序与可持续。