北大推出化学能力评测题库SUPERChem：本科生与多款模型同台，科学推理“硬仗”如何破局

人工智能技术快速发展的当下，其在自然科学领域的应用潜力备受关注。

近日，北京大学化学与分子工程学院联合计算中心、计算机学院、元培学院等多个团队，正式发布SUPERChem化学智能评测基准，通过构建高质量题库，系统评估当前主流人工智能模型在化学推理方面的真实水平。

此次评测项目汇集了174名北京大学化学与分子工程学院二年级学生，与包括GPT、Gemini、DeepSeek在内的多个顶尖人工智能模型展开同场竞技。

评测结果显示，参与测试的北大学生平均准确率达到40.3%，而人工智能模型的表现仅相当于低年级本科生水平，凸显了当前智能系统在复杂科学推理方面的局限性。

为确保评测的科学性和权威性，项目团队建立了严格的题目生成和审核机制。

500道测试题目由北京大学近百名师生共同编制，其中不乏化学奥林匹克竞赛金牌获得者。

每道题目都需经历初稿撰写、解析编制、初审和终审等多个环节，由不同人员分别把关，部分题目甚至经过15次修订完善。

项目主要负责人、北京大学化学与分子工程学院博士研究生黄志贤表示，题目设计重点考查晶体结构精细解析、反应机理深度推演、物化性质定量计算等核心化学概念，旨在检验人工智能系统是否真正理解化学原理，而非仅仅依靠记忆和模式匹配。

当前人工智能模型在化学推理方面表现不佳的原因主要体现在多个层面。

首先，现有大型语言模型主要基于文本训练，在处理化学分子的二维和三维空间信息方面能力有限。

化学世界本质上是立体的，需要对分子结构、空间构型等复杂信息进行综合理解，这超出了纯文本模型的处理范围。

其次，化学推理往往需要将抽象理论与具体实验现象相结合，要求系统具备跨领域知识整合能力。

人类学生在学习过程中能够建立直觉性理解，而当前人工智能系统更多依赖统计规律，缺乏对化学本质的深层把握。

此次评测的意义不仅在于揭示人工智能的现有局限，更在于为相关技术发展指明方向。

黄志贤强调，发布这一成果的目的并非证明人工智能的不足，而是希望推动其在自然科学领域的进一步发展。

作为中国化学学科的重要力量，北京大学有责任为人工智能研究提供高质量的评测标准和发展指引。

从更广阔的视角来看，SUPERChem项目反映了当前人工智能发展面临的重要课题。

随着技术应用领域不断扩展，如何构建更加全面、科学的评测体系，成为推动技术进步的关键环节。

特别是在自然科学等专业性较强的领域，需要建立更加精准的能力评估机制。

该项目还为高等教育改革提供了有益启示。

通过让学生参与前沿技术评测，不仅提升了其专业能力，也培养了其创新思维和批判精神。

这种将教学与科研紧密结合的模式，为培养新时代科技人才探索了新路径。

当技术狂飙突进遭遇学科深水区，北大这项研究揭示了人工智能与人类智能的互补本质。

在化学键与算法代码的交汇处，科学评估标准的建立或许比简单比较胜负更具历史意义——它既是对技术局限的清醒认知，更是对人类探索精神的永恒致敬。

这场跨越碳基与硅基的对话，终将推动双方走向更广阔的协同创新之路。