全球首个“大模型专病循证能力评测框架”

最近医疗AI圈出了个大新闻，蚂蚁健康联手北大人民医院王俊院士团队，搞出了全球首个“大模型专病循证能力评测框架”，代号GAPS。这项测试实际上是让AI“过考”，只有通过临床考验，医生才敢真正把它用在临床上。过去评测方法就像做“知识点试卷”，用标准病历和病人作为答案，真实的临床疑难杂症根本测不出来。有些评测依赖于MedQA这类题库和HealthBench专家打分，不同人的打分差异很大，甚至能差出一条街。像肺癌这种复杂疾病，连“考卷”都找不到，医院挑选AI只能凭传闻和印象。为了解决这个问题，蚂蚁健康和北大人民医院王俊院士团队花了六个月时间，医工协同搞出了一套真正能用的评测工具。他们邀请十几位胸外科医生全程参与，把临床需求直接放进评测工具中去。这个过程不是简单的“专家指导”，而是医生与工程师共同合作编写代码、制定标准、设计案例的过程。这次评测GAPS拿出了四把“尺子”，专门测量AI在临床场景中的真实表现。第一把尺子是认知深度，不是只问知识点，而是让AI说出为什么选择某种治疗方案。技术团队发现临床决策链比知识点长多了，推理过程比结论更重要。第二把尺子是回答完备性，推荐的方案必须附带禁用人群、注意事项和复查节点等信息。第三把尺子是抗干扰能力，故意给模糊数据来测试AI的鲁棒性。第四把尺子是安全底线，如果AI的回答出现致命错误，就会直接判不及格。这个评测集针对非小细胞肺癌设计了92个问题和1691个临床要点。自动评分系统与专家打分的一致性高达90%。用这套标准去量一量AI表现后再决定能不能进医院。这次实测结果显示背知识点和选择题都表现不错，但面对复杂场景时多数模型表现不佳。这说明参数和模型大小并不是评判AI能力的唯一标准。王俊院士团队把论文和评测集全部开源出来给行业使用。他们希望GAPS能成为AI进入医院的“临床资格证”。通过这种方式可以确保只有真正能够解决临床痛点的AI才能在诊室里发挥作用。