南宁刚刚办完了全国医保影像AI识图大赛的发布会,这次比赛是国内首个把医保、医学影像还有人工智能这三大块深度绑在一起的国家级赛事。它打算从今年8月折腾到10月,就把竞赛的事儿安排在广西了。国家医保局那边把把这块数据抓得很紧,付超奇这位主任说得很实在,大家现在手里头攒着的医保信息数据总量加起来已经有2.73万亿条了,总共装满了4.11PB的硬盘空间。这跟给AI喂原油炼油一样难,得先把这海量的原始数据好好治理标注一下,才能变成能用的高质量数据集。这次大赛就是个练数的抓手,好让数据要素更快地转化出来。付超奇还说,赛道的设置全是跟着临床的实际需求来的,特意挑了发病率高、给病人负担重的那些病种来出题。比如基于CT的肺癌检测、肾癌检测就占了6个核心赛道里的大头。 吴佳佳记者还特别提到了几个有意思的点。那个基于胸部X光的赛道,要求AI得会多任务处理;至于超声那块儿的甲状腺癌检测,重点考的是AI能不能从视频里揪出病变。为了保证公平公正,主办方直接给参赛者发了统一的训练数据集和独立测试集。每一个赛道的素材都有万例那么多,里面还掺着不少从医院里捞来的罕见病例片子。这就好比给模型喂了个大补丸,能大大提升它的泛化能力。 作为共同办赛的广西政府那边也没闲着。眭国华副主席把账算得清清楚楚:在准备阶段就已经搞出了本地化的数据治理和标注能力,把流程规范得死死的。现在正忙着建医保影像云平台呢,已经把这几年的历史影像全传上去了,目标是搞出个3000万例的标准库;还有起码5个符合国家标准的标注数据集也在紧锣密鼓地建着。 付超奇最后还提了个美好的愿景:这场大赛就是把健康、数据和人工智能这三样东西揉在一块儿的绝佳试验场。主办方打算把那些好成果赶紧对接转化出去,让市场价值和社会价值都快点变现。这对于医药健康、科研临床、数字产业这些多领域的融合升级肯定是个大好事。