蛋白质工程以前有个麻烦事儿,就是大家总说序列空间特别大,但真正有用的功能蛋白却特别少。以前的方法搞高通量实验,结果经常是失败率很高,“明星候选”到后面测一测都不灵了。更糟糕的是,很多蛋白质根本就不能高通量分析,让大家很头疼。那怎么办?有个想法挺有意思:用少量的数据就能训练出一个能看懂千万级虚拟序列的智能体。具体来说呢,这个智能体叫Low-N。Low-N这个工程法先做个无监督学习,在2000万条氨基酸序列上跑一遍,让模型先认认“像功能蛋白”的样子。然后把目标家族的序列丢进去微调,让它学会这家族的“方言”。接着呢,只用24个随机突变体的数据,就能让模型的判别力跟百万级的数据一样厉害。为了验证这一套流程行不行,作者拿绿色荧光蛋白avGFP开刀。先用易错PCR搞出24个或者96个突变库,就这么几十个点撑起全局虚拟定向进化。之后五轮筛选和实验验证,在12000个设计里找到新的荧光蛋白,活性跟业界标杆sfGFP差不多。又拿TEM-1 β-lactamase做了一个极端测试——只用一个突变体的数据就把它重新设计成81个氨基酸的紧凑结构,还锁定了7个关键位点。结果模型生成了300个优化序列,经实验复筛后活性提升不少。Low-N能这么厉害主要靠三点:一是无监督加微调先把空间压缩一下;二是低样本监督再把空间扩展一下;三是虚拟定向进化放大杠杆效应。这套方法不仅缩短了研发周期,也给那些难搞的蛋白家族打开了大门。展望未来吧,模型开源后大家可以用UniRep预训练权重来启动自己的工程项目。数据孤岛打通后,低样本学习会成为常态。我觉得绿色革命式的生物制造或许真的不远了。