北大发布superchem 评估体系，给ai的化学能力定个标准

中国的顶尖学府北京大学近日推出了一套名叫SUPERChem的全新评估体系，专门给AI的化学能力定个标准。这事儿对咱们来说挺重要的，因为现在AI发展太快了，谁也说不清它到底能在像化学这样需要深度思考的自然科学领域走多远。负责这件事儿的是北京大学化学与分子工程学院，他们还联合了北大计算中心、计算机学院、元培学院这些团队一起干。这套SUPERChem其实不是拿来跟人类比赛看谁赢的，而是给AI的化学智商做了个科学的测试题。为了搞清楚AI的真实水平，研究人员把目光投向了北大化学与分子工程学院174名大二的本科生。大家在一个系统里一起做对比测试，除了人之外，还有GPT、Gemini、DeepSeek这些国际上最厉害的大语言模型也在这儿受测。这个SUPERChem题库一共500道题，涵盖了晶体结构解析、反应机理推演这些特别难的知识点。它的设计就是想看看AI在空间想象或者逻辑推理这些方面到底有没有盲区。项目负责人黄志贤博士说，出题的时候专门遵循了一个原则，就是要让AI“没见过”这些题。出题的人有上百名北大师生，有的还是化学奥赛金牌得主呢。为了让题目更能考出真本事，所有题目都做成了选择题，而且特意设计得挺特别的。这样就没办法光靠背文献或者简单匹配模式来答对了，必须得动脑子真正理解才行。为了保证题目质量，SUPERChem还用了一个堪比学术期刊审稿的三阶段审核流程。每道题都要经过好几轮把关，得有好几个人来检查。项目的另一位主创赵泽华说，一道题从出到最后入库，平均要过至少三个人的手，有的题改了都有15个版本。最后的结果显示，北大化院本科生平均答对了40.3%，这说明题是真的很难。而那些大语言模型的表现也就是和大学低年级学生差不多。特别是在那种得看三维结构或者凭直觉的题目上，AI和人类的差距特别明显。黄志贤分析说，很多主流大模型其实是用文字训练出来的，处理图片或者三维信息的本事还差点儿劲。化学这门学科的本质就是要懂原子分子在三维空间里怎么排列、怎么作用、怎么变的，这对只懂看文字的模型来说确实挺难的。既然心里有点数知道结果会咋样，那这研究还有啥意思呢？研究团队强调说，他们不是为了证明人类现在厉害或者AI现在不行。而是想用科学的方法给AI指条明路。黄志贤说：“咱们作为中国化学学科的领头羊，有责任搭个高标准的平台。”他的意思是引导搞计算机的人去研究自然科学的特点，看看以后该怎么训练模型。他们关注的不是现在谁赢了输了，而是让AI以后能帮着科学家搞科研。北京大学发布SUPERChem评估体系标志着咱们国家在这个交叉领域又前进了一步。它没走那种娱乐化或者单纯比拼输赢的路子，而是要建立一套长期、系统的评估标准。这次研究不光给AI的化学认知水平立了个高标杆，还为以后AI怎么赋能科学研究铺了条路。未来只要这种评估体系越做越好、越做越广，在科学家的带领下，AI就能更稳当地融入探索自然奥秘的过程中去了。