人工智能“阿尔法折叠”大升级

话说,就在北京的3月22日,科技日报记者张佳欣跟大家说了个挺厉害的事儿。原来,那个有名的AI工具“阿尔法折叠”搞了个大升级。大家都知道,以前这工具主要是帮人预测单个蛋白质的结构,可这次不一样,“阿尔法折叠”终于要把蛋白质复合物的结构预测给纳入进去了。这可是大动作,因为蛋白质在人体内很少是单打独斗的,往往是几样凑在一起才干活。 这次合作的阵容也很强大,是欧洲分子生物学实验室的欧洲生物信息学研究所、谷歌旗下的“深度思维”公司、英伟达还有韩国首尔大学一起搞的。他们凑出来一个超级大的数据集,里面全是由AI算出来的蛋白质复合物结构,足足有几百万个呢,这下子全世界的科研人员都能用上了。 具体来说,这个新数据集一口气收进了170万个高置信度的同源二聚体结构。这是什么意思呢?就是由两个完全一样的蛋白质组成的复合物。这一步特别关键,因为它让我们能更好地理解蛋白质到底是怎么通过互相配合来完成生命活动的。而且啊,这些数据里还特意挑了跟人类健康和疾病关系大的蛋白质放进去。 其实在2021年开放的时候,“阿尔法折叠”数据集里就已经存了大约2亿个单个蛋白质结构的预测结果了。可问题在于,蛋白质真正干活的时候很少是一个人在战斗,所以研究团队又花了大力气去预测复合物的结构。毕竟这比单预测一个单体难多了,对计算机的算力要求也高得吓人。 为了给大家弄个权威的答案,研究团队选了20种研究得特别透的物种来分析,像人类、小鼠、酵母还有结核分枝杆菌这些常见的物种都被拿来练手。他们一共算了约3000万个同源二聚体预测结果出来,最后挑出质量最高的170万个放进了数据库里。 科学界都觉得这是个重要转折,标志着我们从光看单个分子结构的时代进入了研究分子相互作用网络的阶段。有些蛋白只有弄成复合物的样子来建模,才能算出正确的三维结构。不过团队也提醒大家别盲目相信AI结果得靠谱点用实验去验证确认才行。 听说是计划未来还会往这个数据库里加点东西呢,比如那种由两个不同蛋白质组成的异源二聚体结构的预测结果也会加进来。