长期以来,新药研发面临“靶点多、化学空间更大、验证成本高”的结构性矛盾。
相关数据显示,人类已开展系统性探索的可成药靶点仅覆盖全部潜在靶点的一小部分。
面对数以万计的潜在靶点以及难以穷尽的类药小分子集合,如何在更短时间内从海量候选中筛出具有活性与成药潜力的化合物,是制约药物早期发现效率的关键环节之一。
这一瓶颈的背后,既有科学问题也有工程约束。
从科学层面看,蛋白质结构多样、口袋形态复杂,配体与靶标结合涉及多尺度相互作用;从工程层面看,传统计算流程往往依赖逐一对接与能量评估,计算量随靶点数量和分子库规模呈指数式增长,导致“能算但算不完、能筛但筛不全”。
与此同时,实验验证昂贵且周期长,使得早期筛选更需要准确、快速、可扩展的计算工具来提升命中率、降低试错成本。
在此背景下,清华大学智能产业研究院兰艳艳教授联合生命学院、化学系团队研发的DrugCLIP平台提出一条可规模化的解决路径。
研究以“深度对比学习实现基因组级别药物虚拟筛选”为题发表于《科学》,核心在于以学习式方法提升蛋白-配体匹配判断的效率与可靠性,从而将虚拟筛选从“按项目逐个推进”推向“面向全基因组系统扫描”。
据介绍,该平台在筛选速度上相较传统方法实现百万倍量级提升,并在预测准确率方面取得显著改进,为大规模筛选提供了现实可行的计算基础。
更值得关注的是其“基因组级”应用示范。
依托该平台,团队首次完成覆盖人类基因组尺度的药物虚拟筛选:面向约1万个蛋白靶点、2万个蛋白口袋,对超过5亿个类药小分子开展分析筛选,最终富集得到超过200万个潜在活性分子,形成目前已知规模最大的蛋白-配体筛选数据库之一,并已向全球科研社区免费开放。
该举措不仅为后续研究提供了更完整的“靶点—口袋—分子”候选图谱,也有助于不同研究团队在同一数据底座上开展交叉验证与再开发,提升科研协同效率。
从影响看,这一成果对药物研发链条的前端具有直接意义:其一,有望显著压缩“从靶点到先导化合物”的时间成本,为罕见病、传染病、肿瘤等领域的早期发现提供更快的筛选通道;其二,通过更大规模、更系统的筛选覆盖,可能提升对“冷门靶点”“新靶点”的探索概率,扩大可干预疾病谱;其三,开放数据库有利于降低科研门槛,使资源有限的团队也能开展高质量的候选挖掘与机制研究,推动科研公平与成果可复用。
同时也应看到,虚拟筛选的“快”并不等同于“可直接成药”。
从对接预测到实验验证仍需经历活性测定、选择性评估、毒理与药代优化等多道关口。
数据与算法的可靠性、适用范围、偏差来源以及不同靶点类型上的泛化表现,仍需要在更广泛的实验与临床前研究中持续检验。
推动此类平台真正形成生产力,既要加强与高通量实验平台的闭环验证,也要完善数据标准、评测体系与开放共享机制,形成“算法—数据—实验—反馈”的迭代生态。
面向未来,基因组尺度的系统筛选与开放数据底座,可能促使药物发现范式进一步从“单点突破”迈向“全局搜索”。
随着蛋白结构解析、分子生成设计、实验自动化等能力协同发展,药物研发有望在更大范围内实现“从候选到验证”的并行推进。
对科研机构而言,应持续加强跨学科协作与基础设施建设;对产业界而言,可在早期管线筛选、靶点优先级排序、再定位药物挖掘等环节加速落地;对公共卫生与重大疾病防治而言,则可能带来更快速、更可及的新药发现路径。
这项重大科研成果的取得,标志着我国在计算药物研发领域已跻身世界前列。
它不仅为破解药物研发效率瓶颈提供了中国方案,更展现了我国科学家在解决全球性科技难题中的责任担当。
随着该技术的推广应用和数据库的持续完善,有望推动全球药物研发模式发生深刻变革,为人类健康事业作出更大贡献。