上海财经大学教授提出"起源挑战"测试方案探索人工智能真实智能水平的新维度

围绕智能水平的判定与评估，学界长期面临一个关键问题：当系统在对话、写作、推理等任务中体现出高度“类人”表现时，如何判断它是否具备可与人类相比的智能结构，而不只是对外部输入的高效拟合与输出；近期，上海财经大学人文学院院长王献华在一次公开演讲中将讨论引向“文明起源”，以文字的发明为切入点，提出一种面向通用智能体的检验思路。问题在于，传统图灵测试在当下的适用性正被重新审视。图灵测试的核心是：在基于文本的自然语言交流中，如果评测者无法分辨对话对象是人还是机器，就可在一定意义上将其视为意义在于智能。但随着对应的系统能力快速提升，现实中不断出现“看似通过”的案例与相互矛盾的结论；同时，测试结果也常常高度依赖提问内容、评测场景与评测者经验。王献华引用学界的一种批评指出，这类测试更像一面“镜子”，映照的是提问者的知识边界与追问深度：问题越复杂、越贴近真实情境，系统越容易暴露局限；问题越浅显、越模板化，系统越可能显得“像人”。在这种情况下，仅凭对话拟真下结论，难以形成稳定、可重复、可解释的标准。原因在于，智能并不只体现为语言层面的应答能力，更深层的能力可能来自社会协作、规则生成与符号体系的共同建构。王献华强调，人类智能并非在孤立状态中形成，而是在社会环境中逐步演化：个体之间的分工、合作、冲突与协商推动知识累积与制度形成；而文字作为信息记录与跨时空传播的工具，是文明发展中的关键节点。文字的重要性不止在于“能写会读”，更在于它意味着一个群体能够稳定约定符号、共享意义、形成规则，并在复杂互动中实现传承与扩展。换言之，文字是社会性智能的一种外化成果。基于此判断，王献华提出“Nigiro Challenge”测试设想。“Nigiro”是“Origin（起源）”的反写，寓意从起源处反向追问智能的根本机制。该挑战关注的不是单体系统的应答水平，而是通用智能体群体在虚拟社会情境中的能力：在持续互动与共同任务压力下，能否逐步生成并完善一种属于它们自己的文字或符号系统，实现从即时交流走向可记录、可复用、可扩展的表达体系。该方案强调“社会性虚拟造字”：让智能体置身于类似人类早期社会所面临的沟通需求、协作成本与信息保存问题中，观察其是否能自发形成可行的解决路径。这一思路体现在三个层面。其一，它试图将智能评测从“结果像不像人”转向“机制是否具备生成文明要素的能力”，并强调可解释性与因果链条：符号从何而来、规则如何达成、意义如何稳定、体系怎样演进。其二，它有助于降低对提问者个人水平的依赖，通过设定更接近真实社会的互动框架，使评测更针对系统在长期、多轮、群体协作中的表现。其三，它为讨论“智能体如何进入社会”提供新的参照。王献华提出，从文字角度看，如果一群智能体能够独立发明并使用自洽的文字系统，或可在一定程度上被视为人类社会的“合格成员”之一。这一表述强调的是能力与贡献的可验证性，而非停留在拟人化印象。对策层面，若要将这一设想推进为可操作的评测框架，还需在学术与治理层面同步完善。首先，应建立可复现实验环境与清晰指标，包括互动任务设定、资源约束、噪声与不确定性条件，以及符号系统稳定性与可扩展性的评价等，避免评测停留在概念演示。其次，应引入跨学科方法，将语言学、认知科学、人类学、社会学与计算机科学的研究工具结合起来，既评估符号体系本身，也评估其背后的社会协商机制。再次，需要明确安全与伦理边界：当智能体群体在虚拟空间形成“自有表达体系”时，如何确保其可审计、可解释、可对齐，防止出现难以监管的封闭通信与不可控行为。最后，建议推动形成更公开透明的评测标准与第三方验证机制，减少“自我宣称通过”的争议，提高社会信任度。前景来看，围绕通用智能评测的竞争或将从单一任务比拼走向体系化能力检验，尤其是对长期规划、社会协作、规则生成与文化传承等能力的关注可能上升。以“文字起源”为线索的评测设想，或将推动评估框架更贴近人类文明发展的关键机制，也为公众理解“智能”与“文明”的关系提供新的解释路径。当然，文字并非文明的唯一标志，造字能力也不必然等同于完整智能；但它提供了一个可观察结果、可追溯过程的切口，有助于把抽象争论转化为可检验问题。

当人类以造字能力作为文明门槛时，我们或许正站在理解智能的一个转折点。“尼吉罗挑战”不仅检验机器，也促使人类回到自身：我们究竟以什么来界定智能，又如何在技术演进中重估文明的尺度。在科技与人文的交汇处，这场跨越时空的文明对话，可能为智能时代的价值坐标提供新的刻度。

上海财经大学教授提出"起源挑战"测试方案 探索人工智能真实智能水平的新维度

上海财经大学教授提出"起源挑战"测试方案探索人工智能真实智能水平的新维度