这两天,生物学术界炸锅了,困扰了分子(结构)生物学 50 多年的问题被 Google DeepMind 团队在短短数年间给解决了。

CASP 成立 20 多年以来,蛋白质结构预测的准确率一直没有超过 50%(感觉还不如抛硬币的概率 🤣🤣🤣),2018DeepMind 团队以初代的 AlphaFold 首次参加 CASP (Critical Assessment of protein Structure Prediction) 比赛,便以 60% 的预测准确率刷新了历史纪录而摘得桂冠。仅仅时隔 2 年(每 2 年举办一次),DeepMind 团队便将 AlphaFold 升级到了 AlphaFold 2 ,在这次的 CASP 比赛中,其成绩再一次刷新了历史记录,而且相较于初代 AlphaFold 超出了近 50%,其整体平均正确率已经达到了 92.4%!即使是最复杂的蛋白质结构,其正确率的中值也达到了 87.0%!简直是吊打其他的参赛团队。一般认为能达到 90% 以上的正确率,基本上就等同于通过实验得到的结果了,那这意味着什么呢?

CASP

蛋白质的结构

在了解什么是 CASP 之前,首先得了解蛋白质的结构,众所周知,蛋白质的基本组成结构是氨基酸,就像 DNA/RNA 是由核苷酸组成一样,目前已知的氨基酸就有 22 种,像 DNA 只有 4 种核苷酸组成,其结构就如此复杂,而组成蛋白质的氨基酸多达 22 种,可想而知,其结构比 DNA 要复杂得多。

protein structure

蛋白质折叠问题

蛋白质作为高分子聚合物,不仅在生物化学、分子生物学方面(酶),还有在传染病(病毒、抗生素)以及其它疾病方面的研究有着重要的意义。虽然其基本组成单元很简单,但跟 DNA 还不太一样,DNA 的一维碱基序列可以直接决定 DNA 的功能,但一维的氨基酸序列并不能直接决定其功能,真正决定其功能的是其实是它的三维结构。而从一维的多肽链到三维的蛋白质,需要经历各种局部的旋转(α螺旋)和折叠(β折叠)形成二级结构,然后再进行折叠形成三级结构——蛋白质分子,在三级结构的基础上,还可以进行折叠形成四级结构——蛋白质复合体,所以,要弄清楚蛋白质的功能,就需要分析其三级和四级结构。粗略的估算一下,一个典型的蛋白质就有 10^300 种可能的结构,如果通过暴力计算进行穷举,所花的时间比已知的宇宙的时间还要长。

CASP

为了促进蛋白质的结构研究,在 1994 年,John MoultKrzysztof Fidelis 两位教授成立了 CASP ,在全球范围内进行蛋白质结构预测实验,而 CASP 在这中间的角色是作为举办方,一方面为各个参赛团队提供机会,另一方面,作为评估方,对各个研究团队的蛋白质结构建模技术进行独立评估,所以,CASP 在工业界乃至学术界就是权威一样的存在,能赢得 CASP 比赛是至高无上的荣誉,很多团队不惜停掉其它的研究项目数月,只是为了参加 CASP 比赛。

DeepMind

在过去的 50 多年的时间里,蛋白质结构的研究都是以年来计,即使发表了很多学术论文,在预测的效率以及准确率上并没什么质的飞跃,预测的准确率一直在 50% 以下。在第 13 届 CASP 大赛上,由 DeepMind 团队研发的人工智能 —— 初代 AlphaFold 初露锋芒,一举拿下了 CASP 的冠军,AlphaFold 算法的出现,让蛋白质结构的预测从原来的以年计缩短到以天来计,这意味着,原来很多教授终其一生的研究成果,在短短数天就能被 AlphaFold2 所超越,不知道那些还在实验室研究蛋白质结构的教授们以及他们的学生在此做何感想。

AlphaFold 为何如此厉害?说到这里,就不得不提 Google 为人工智能而设计的专用处理器 —— TPU (Tensor Processing Unit) ,从 2015 年开始,Google 就已经在内部开始使用,并于 2018 年开始提供给第三方使用。初代的 AlphaFold 仅使用了 5 个 TPU 就将预测的准确率从自 CASP 成立以来一直徘徊在 40% 左右一下子提升到 60%,而 AlphaFold2 则采用将近 128 个 第三代的 TPU (相当于 100 ~ 200 个 GPU),仅仅运行了几周的时间,就达到了 90% 以上的准确率,按照这个速度,90% 以上的实验都将被人工智能所替代。

进化的速度

我常常在想,为什么在人类过去数十万年的历史中,科技的发展一直没有什么改变,而在短短的几百年间,却有如此大的突破,那过去的数十万年间,究竟是什么阻碍了人类的进步?或许,这又是另一个话题了。。。