这才是真正有用的功能蛋白

蛋白质工程以前有个麻烦事儿，就是大家总说序列空间特别大，但真正有用的功能蛋白却特别少。以前的方法搞高通量实验，结果经常是失败率很高，“明星候选”到后面测一测都不灵了。更糟糕的是，很多蛋白质根本就不能高通量分析，让大家很头疼。那怎么办？有个想法挺有意思：用少量的数据就能训练出一个能看懂千万级虚拟序列的智能体。具体来说呢，这个智能体叫Low-N。Low-N这个工程法先做个无监督学习，在2000万条氨基酸序列上跑一遍，让模型先认认“像功能蛋白”的样子。然后把目标家族的序列丢进去微调，让它学会这家族的“方言”。接着呢，只用24个随机突变体的数据，就能让模型的判别力跟百万级的数据一样厉害。为了验证这一套流程行不行，作者拿绿色荧光蛋白avGFP开刀。先用易错PCR搞出24个或者96个突变库，就这么几十个点撑起全局虚拟定向进化。之后五轮筛选和实验验证，在12000个设计里找到新的荧光蛋白，活性跟业界标杆sfGFP差不多。又拿TEM-1 β-lactamase做了一个极端测试——只用一个突变体的数据就把它重新设计成81个氨基酸的紧凑结构，还锁定了7个关键位点。结果模型生成了300个优化序列，经实验复筛后活性提升不少。Low-N能这么厉害主要靠三点：一是无监督加微调先把空间压缩一下；二是低样本监督再把空间扩展一下；三是虚拟定向进化放大杠杆效应。这套方法不仅缩短了研发周期，也给那些难搞的蛋白家族打开了大门。展望未来吧，模型开源后大家可以用UniRep预训练权重来启动自己的工程项目。数据孤岛打通后，低样本学习会成为常态。我觉得绿色革命式的生物制造或许真的不远了。