上海财经大学教授提出"起源挑战"测试方案 探索人工智能真实智能水平的新维度

围绕智能水平的判定与评估,学界长期面临一个关键问题:当系统在对话、写作、推理等任务中体现出高度“类人”表现时,如何判断它是否具备可与人类相比的智能结构,而不只是对外部输入的高效拟合与输出;近期,上海财经大学人文学院院长王献华在一次公开演讲中将讨论引向“文明起源”,以文字的发明为切入点,提出一种面向通用智能体的检验思路。问题在于,传统图灵测试在当下的适用性正被重新审视。图灵测试的核心是:在基于文本的自然语言交流中,如果评测者无法分辨对话对象是人还是机器,就可在一定意义上将其视为意义在于智能。但随着对应的系统能力快速提升,现实中不断出现“看似通过”的案例与相互矛盾的结论;同时,测试结果也常常高度依赖提问内容、评测场景与评测者经验。王献华引用学界的一种批评指出,这类测试更像一面“镜子”,映照的是提问者的知识边界与追问深度:问题越复杂、越贴近真实情境,系统越容易暴露局限;问题越浅显、越模板化,系统越可能显得“像人”。在这种情况下,仅凭对话拟真下结论,难以形成稳定、可重复、可解释的标准。原因在于,智能并不只体现为语言层面的应答能力,更深层的能力可能来自社会协作、规则生成与符号体系的共同建构。王献华强调,人类智能并非在孤立状态中形成,而是在社会环境中逐步演化:个体之间的分工、合作、冲突与协商推动知识累积与制度形成;而文字作为信息记录与跨时空传播的工具,是文明发展中的关键节点。文字的重要性不止在于“能写会读”,更在于它意味着一个群体能够稳定约定符号、共享意义、形成规则,并在复杂互动中实现传承与扩展。换言之,文字是社会性智能的一种外化成果。基于此判断,王献华提出“Nigiro Challenge”测试设想。“Nigiro”是“Origin(起源)”的反写,寓意从起源处反向追问智能的根本机制。该挑战关注的不是单体系统的应答水平,而是通用智能体群体在虚拟社会情境中的能力:在持续互动与共同任务压力下,能否逐步生成并完善一种属于它们自己的文字或符号系统,实现从即时交流走向可记录、可复用、可扩展的表达体系。该方案强调“社会性虚拟造字”:让智能体置身于类似人类早期社会所面临的沟通需求、协作成本与信息保存问题中,观察其是否能自发形成可行的解决路径。这一思路体现在三个层面。其一,它试图将智能评测从“结果像不像人”转向“机制是否具备生成文明要素的能力”,并强调可解释性与因果链条:符号从何而来、规则如何达成、意义如何稳定、体系怎样演进。其二,它有助于降低对提问者个人水平的依赖,通过设定更接近真实社会的互动框架,使评测更针对系统在长期、多轮、群体协作中的表现。其三,它为讨论“智能体如何进入社会”提供新的参照。王献华提出,从文字角度看,如果一群智能体能够独立发明并使用自洽的文字系统,或可在一定程度上被视为人类社会的“合格成员”之一。这一表述强调的是能力与贡献的可验证性,而非停留在拟人化印象。对策层面,若要将这一设想推进为可操作的评测框架,还需在学术与治理层面同步完善。首先,应建立可复现实验环境与清晰指标,包括互动任务设定、资源约束、噪声与不确定性条件,以及符号系统稳定性与可扩展性的评价等,避免评测停留在概念演示。其次,应引入跨学科方法,将语言学、认知科学、人类学、社会学与计算机科学的研究工具结合起来,既评估符号体系本身,也评估其背后的社会协商机制。再次,需要明确安全与伦理边界:当智能体群体在虚拟空间形成“自有表达体系”时,如何确保其可审计、可解释、可对齐,防止出现难以监管的封闭通信与不可控行为。最后,建议推动形成更公开透明的评测标准与第三方验证机制,减少“自我宣称通过”的争议,提高社会信任度。前景来看,围绕通用智能评测的竞争或将从单一任务比拼走向体系化能力检验,尤其是对长期规划、社会协作、规则生成与文化传承等能力的关注可能上升。以“文字起源”为线索的评测设想,或将推动评估框架更贴近人类文明发展的关键机制,也为公众理解“智能”与“文明”的关系提供新的解释路径。当然,文字并非文明的唯一标志,造字能力也不必然等同于完整智能;但它提供了一个可观察结果、可追溯过程的切口,有助于把抽象争论转化为可检验问题。

当人类以造字能力作为文明门槛时,我们或许正站在理解智能的一个转折点。“尼吉罗挑战”不仅检验机器,也促使人类回到自身:我们究竟以什么来界定智能,又如何在技术演进中重估文明的尺度。在科技与人文的交汇处,这场跨越时空的文明对话,可能为智能时代的价值坐标提供新的刻度。