问题——分子三维结构被认为是影响物性与反应活性的关键因素,但实际研究和工业应用中,三维构象往往难以直接获取。实验方法无法为所有分子提供稳定可靠的坐标;在计算端,构象采样与优化需要大量算力和时间,在高通量筛选、药物发现等场景里成本尤为明显。在此情况下,只用二维拓扑图训练虽然更省事,却常因缺少空间信息而限制预测精度。如何在“缺结构”和“要精度”之间找到可规模化的折中方案,成为分子机器学习的重要难题。 原因——传统路线面临“两难”:一上,引入三维坐标能明显增强模型表达能力,但构象生成、筛选与能量优化等前置步骤开销很大;另一方面,纯二维方法虽然高效,却难以刻画原子间距离、扭转自由度等与能量、极性和反应位点密切有关的因素。问题的核心在于:模型缺少可泛化、可学习的三维信息来源,也缺乏稳定机制去判断哪些预训练目标最能服务下游预测。 影响——新提出的3D PGT框架试图打破该僵局。它不再“重建完整三维坐标”,而是聚焦最小但关键的几何信息单元:键长、键角与二面角。框架设计多项生成式预训练任务,让模型在训练阶段学习“从局部几何推断空间关系”,并将这种能力编码为分子表示,用于性质预测等下游任务。为降低计算负担,研究团队在角度与扭转角分布估计中采用更高效的采样与可微优化设计,使训练与推理更易扩展。实验结果显示,该框架在经典量子化学数据集上的误差可与部分依赖三维结构的方法相当甚至更优,同时推理速度接近二维图方法,体现出在精度与效率之间的更好平衡。 对策——多任务预训练中,“任务权重怎么设”往往直接影响效果。3D PGT以分子总能量作为约束信号,把它当作衡量预训练任务有效性的参照,并通过自监督的权重搜索机制自动调整各任务贡献:更能提升能量预测一致性的任务得到更高权重,反之则被降低。该机制将训练组织为双层优化,通过梯度信息迭代更新权重,减少对人工经验调参的依赖。实验也表明,关闭权重搜索会带来明显性能回落,说明这一环节是性能提升的重要组成。同时,研究提示预训练数据规模与收益并非线性关系,存在较优区间;超过一定范围后增益变小,甚至出现过拟合迹象,为后续大规模训练与资源投入提供了更谨慎的参考。 前景——在百万级分子数据集上,该框架仍表现出良好的迁移能力,多项关键指标较对照方法有明显提升,说明其并非依赖特定数据分布的“偶然优势”,而具备面向真实应用的可推广性。随着药物研发、材料设计对高通量、低成本筛选需求持续增长,能够在缺少三维坐标的条件下稳定提取空间信息的算法路线,有望显著降低前置数据获取与算力门槛。下一阶段,相关方法或将扩展到更复杂的生物大分子,将肽键构象、二级结构等更丰富的局部模式纳入预训练任务;同时引入原子电荷、偶极矩等多物理量监督,增强表征与真实物理过程的关联;并结合对比学习等策略,在局部几何重构之外强化全局一致性,深入提升鲁棒性与泛化能力。
这项源自中国实验室的工作,为“缺三维结构条件下如何获得高质量分子表示”提供了新的路线选择,也展示了基础研究在关键方法创新上的价值。在算力与数据成本持续攀升的背景下,这种从问题本质出发、用更轻量的几何信息实现有效学习的思路,提示突破往往来自对核心科学问题的重新拆解与建模。随着有关技术走向工程化与产业应用,或将为生物医药等领域的高效筛选与研发流程带来新的增量空间。