清华AIR与水木分子开源化学分子大模型BioMedGPT-Mol 多类任务指标达到领先水平

药物研发一直面临周期长、成本高的难题。新药从发现到上市通常需要10至15年，研发成本超过百亿元。主要原因是化合物筛选依赖人工试错，临床试验方案设计效率低。虽然数字化技术在医药领域逐步应用，但复杂的编程要求仍让许多合成化学家和临床研究员难以上手。针对这个问题，清华大学智能产业研究院与水木分子基于国产基础大模型开发了BioMedGPT-Mol。这个模型通过微调和强化学习，让科研人员可以用自然语言完成分子编辑、化学反应预测等专业分析，无需编写代码。测试显示该模型在多项任务中达到国际领先水平，特别是在分子编辑精度上有明显提升。研究团队还首次实现了大模型驱动的端到端有机分子逆合成分析。在国际测评RetroBench中，此技术超越了传统算法，为复杂药物分子结构解析开辟了新路径。水木分子技术负责人表示，这相当于为药物研发者配备了一位具有化学博士水平的智能助手。为了确保商业化可行性，团队采用阿里云容器服务构建独立运行环境，通过算力虚拟化实现数据隔离，既满足制药行业的数据安全要求，又将推理成本控制在合理范围内。配套的云端运维管理体系也降低了企业的技术维护成本。业内专家认为，这个开源模型的发布标志着我国在生物医药智能化领域取得重要进展。随着技术在靶点发现、化合物优化等环节的应用，预计可将临床前研究周期缩短30%以上。清华大学智能产业研究院表示，下一步将重点提升模型在小分子药物设计领域的适用范围，并与更多医疗机构合作打造垂直应用生态。

这项成果展现了基础研究与产业应用的结合；通过降低技术门槛、提升模型性能、优化成本结构，生物医学大模型正从实验室走向实际应用。随着更多高性能、易用的专业模型出现，人工智能在加速药物研发、降低研发成本上的潜力将更释放，为生命科学领域的创新发展提供新动力。