Nature旗下期刊发布医疗大模型临床评估“双轨基准” 中国团队以安全有效导向推动标准化落地

随着人工智能技术的快速发展，医疗领域对AI应用的需求日益迫切。

然而，如何科学评估医疗AI的临床诊疗能力，一直是业界面临的关键问题。

近日，一项由中国科研团队完成的研究成果为这一难题提供了系统解决方案。

中国未来医生团队与来自北京协和医院、中国医学科学院肿瘤医院、中国人民解放军总医院、复旦大学附属华山医院等23个核心专科的32位临床专家联合开发了"临床安全-有效性双轨基准"评估标准。

这项研究成果已在Nature旗下学术期刊《npj Digital Medicine》发表，标志着中国在"大语言模型+医疗"领域标准研究中取得重要突破。

传统的医疗AI评估方法主要以答题准确率为衡量指标，这种单一维度的评价体系难以全面反映AI在真实临床场景中的表现。

新发布的CSEDB标准创新性地引入了"安全性"与"有效性"双轨评价体系，这是全球范围内的首次尝试。

该标准涵盖30项核心指标，其中17项聚焦安全性，包括危急重症状识别、致死性诊断失误、绝对禁忌用药等关键场景；13项聚焦有效性，包括多病并存优先级、诊疗方案与指南一致等核心需求。

评估体系采用了科学的加权评分机制，根据临床风险等级对每项指标赋予不同权重，分值从1分到5分不等。

其中，5分对应"潜在致命后果"等高风险情境，1分对应"可逆性伤害"等较低风险情况。

这种差异化的评分设计充分考虑了医疗决策的风险特性，使评估结果更加符合临床实际。

在测试方法上，CSEDB突破了传统"标准问-标准答"的静态模式，构建了2069个开放式问答条目，覆盖26个临床专科，全方位模拟临床诊疗的复杂场景。

这种设计使得评估更加贴近真实的医疗决策环境，能够更准确地反映AI系统的实际临床适用性。

基于该标准，研究团队对全球主流AI模型进行了系统性测评，参与测试的模型包括DeepSeek-R1、OpenAI o3、Gemini-2.5、Qwen3-235B、Claude-3.7等国际通用大模型。

测评结果显示，中国自研的MedGPT系统表现突出，其总体得分、安全性得分、有效性得分三项核心指标均位列全球第一。

MedGPT的优异表现源于其独特的技术架构设计理念。

该系统从立项之初就将临床专家关注的安全性和有效性植入底层代码，致力于让医疗AI"像医生一样思考"，而不是仅仅"说得像医生"。

其底层技术架构模拟的是人脑的认知逻辑，而非依赖海量数据堆积下的"大模型智慧自然涌现"。

在真实临床应用中，MedGPT展现出持续迭代的能力。

目前，超过1万名医生通过未来医生平台与患者进行交互，每周沉淀2万条"真实诊疗反馈"。

通过"反馈即迭代"的飞轮机制，MedGPT的准确率每月能提升1.2%-1.5%，不断推动医疗AI的临床诊疗能力向更高水平迈进。

CSEDB标准的发布具有重要的行业指导意义。

它打破了过往碎片化、主观化的评估方式，为医疗大模型的迭代优化指明了方向，也为医疗AI进入严肃诊疗场景奠定了坚实基础。

这套标准的建立意味着AI时代首次诞生了能真实反映医疗AI临床诊疗能力的系统化评估标准，对于推动医疗AI的规范化发展具有重要参考价值。

此次中国标准获得国际认可，标志着我国在医疗AI质量管控领域已从"跟跑者"转变为"领跑者"。

随着CSEDB标准在全球范围的推广应用，不仅将加速优质医疗AI产品的临床转化，更将为人工智能赋能医疗健康产业树立新的质量标杆。

这既是科技创新与临床需求深度融合的典范，也是中国为全球数字医疗发展作出的重要贡献。