最近医疗AI圈出了个大新闻,蚂蚁健康联手北大人民医院王俊院士团队,搞出了全球首个“大模型专病循证能力评测框架”,代号GAPS。这项测试实际上是让AI“过考”,只有通过临床考验,医生才敢真正把它用在临床上。过去评测方法就像做“知识点试卷”,用标准病历和病人作为答案,真实的临床疑难杂症根本测不出来。有些评测依赖于MedQA这类题库和HealthBench专家打分,不同人的打分差异很大,甚至能差出一条街。像肺癌这种复杂疾病,连“考卷”都找不到,医院挑选AI只能凭传闻和印象。 为了解决这个问题,蚂蚁健康和北大人民医院王俊院士团队花了六个月时间,医工协同搞出了一套真正能用的评测工具。他们邀请十几位胸外科医生全程参与,把临床需求直接放进评测工具中去。这个过程不是简单的“专家指导”,而是医生与工程师共同合作编写代码、制定标准、设计案例的过程。 这次评测GAPS拿出了四把“尺子”,专门测量AI在临床场景中的真实表现。第一把尺子是认知深度,不是只问知识点,而是让AI说出为什么选择某种治疗方案。技术团队发现临床决策链比知识点长多了,推理过程比结论更重要。第二把尺子是回答完备性,推荐的方案必须附带禁用人群、注意事项和复查节点等信息。第三把尺子是抗干扰能力,故意给模糊数据来测试AI的鲁棒性。第四把尺子是安全底线,如果AI的回答出现致命错误,就会直接判不及格。 这个评测集针对非小细胞肺癌设计了92个问题和1691个临床要点。自动评分系统与专家打分的一致性高达90%。用这套标准去量一量AI表现后再决定能不能进医院。这次实测结果显示背知识点和选择题都表现不错,但面对复杂场景时多数模型表现不佳。这说明参数和模型大小并不是评判AI能力的唯一标准。 王俊院士团队把论文和评测集全部开源出来给行业使用。他们希望GAPS能成为AI进入医院的“临床资格证”。通过这种方式可以确保只有真正能够解决临床痛点的AI才能在诊室里发挥作用。