- 第 1 期:RaptorX、AlphaFold、AlphaFold2、RoseTTAFold、DeepAccNet、ESMFold
- 第 2 期:OmegaFold、EquBind、RELATION、BIMODAL、GF-VAE、MCMG
- 第 3 期:MGM、MolGPT、Iterative Refinement LSTM、PAR、Uni-Mol、K-Bert、MolCLR
您正在阅读的是其中的第 1 期。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。
本期收录模型速览
1990年代后期,计算生物学开始成为生物学中非常重要的一部分。在大热的AlphaFold掀起浪潮之前,就有科学家断言:所有生物学都是计算生物学。AI或者深度学习的出现,给计算生物学带来了新的巨大的发展空间。
对于生物学本身,传统的实验和分析手段已难以充分开发海量生物数据,确实需要计算生物学这种跨学科同时兼顾多个细分领域的综合性工具来解决问题。在具体实验方法上,当前绝大多数采用的都是基于已有数据库和资源、利用成熟工具来解决特定问题或自行设计统计分析、数值计算的方法,而计算生物学的出现让干湿实验结合的新方法开始走向主流(在生物上讲,干实验就是通过计算机模拟以及生物信息学方法来进行研究。湿实验就是通过在实验室里采用分子、细胞、生理学试验方法进行研究)。引入AI,实现了对在传统的湿实验环境中的假设的验证,干湿实验共同迭代加速,AI和传统科研结合带来的巨大潜能,有望带来一场全新的科学革命。
在计算生物学中,AI的应用主要有三类:一是,计算推演生物性质及原理,包括:蛋白质结构预测、致病机理研究、蛋白质相互作用预测(PPI)、抗体和抗原的表位预测、基于基因组学寻找疾病成因或寻找新型的生物标志物等。(生物标志物是指可以标记系统、器官、组织、细胞及亚细胞结构或功能的改变或可能发生的改变的生化指标,可用于疾病诊断、判断疾病分期或者用来评价新药或新疗法在目标人群中的安全性及有效性。)这些研究的成果后续可用于得到新的药物靶点等,为疾病治疗提供基本思路。二是搭建预测及判断模型,包括:AI制药中基于靶点的化合物性质预测(主要涉及小分子药物开发),疾病诊断/监控/治疗建模,涵盖细胞/器官/人体的生物模拟器等。其中,生物模拟器的本质功能是用于验证特定疗法有效性的生物模拟器,可以简单理解为生物医药领域的数字孪生。三是对生物体进行控制改造,包括:新疗法/药物开发、精准医疗和生物制造(以合成生物学为代表)。其中新疗法/药物开发是目前落地最成熟的场景。再往细来说,对癌症的个性化治疗和基因组学也将成为精准医疗中最先落地的场景。AI应用于新药开发,可以实现药物靶点发现、药物筛选和结构优化、合成路线等。
本文聚焦于生物制药中必备的TOP模型,具体来说就是第三类AI应用中的主要模型,可以运用到整个药物从研发、中试到生产的所有关键技术环节。上面提及的第二类AI应用主要是生物医药领域的数字孪生,不包含在本文的讨论范围内。
本文回顾的必备TOP模型主要包括蛋白质结构预测和蛋白设计、分子生成、分子表征和性质预测这三类应用,而化学合成/逆合成及其它大数据分析应用等,暂不包含在本文讨论的模型范围中。AI的各种模型和算法应用在生物制药领域,需要与对应的生物学、医学知识高度结合,因此,本报告中对必备TOP模型的介绍主要是从AI建模的角度对模型总体架构和整体设计思路进行介绍,各个模型设计的技术细节、模型调参等思路和技术创新点,需结合原文和所应用的医学场景深入理解。
一、蛋白质结构预测和蛋白设计
1、 RaptorX
该方法通过两个深度残差神经网络形成的超深神经网络,整合进化耦合和序列守恒信息来预测接触。其中,第一个残差网络对序列特征进行一系列的一维卷积变换;第二个残差网络对第一个残差网络的输出、 进化耦合(evolutionary coupling,EC)信息和成对电位进行一系列二维卷积变换。通过使用非常深的残差网络,可以精确地模拟接触发生模式和复杂的序列结构关系,从而获得更高质量的接触预测,而不管所讨论的蛋白质有多少序列同源物。
图1展示了用于接触预测的深度神经网络模型。与以往接触预测的监督学习方法不同,该深度神经网络使用了几十个隐藏层。通过使用一个非常深层的结构,模型可以自动地学习序列信息和接触之间的复杂关系,并对联系人之间的相互依赖性进行建模,从而提高接触的预测能力。
模型由两个主要模块组成,每个模块都是一个残差神经网络。第一个模块对序列特征(序列 profile、预测的二级结构和溶剂可及性)进行一系列一维卷积变换。该一维卷积网络的输出通过外级联(类似于外积的操作)转换为二维矩阵,然后连同成对特征(协同进化信息、成对接触和距离势)输入第二模块。第二个模块是一个二维残差网络,对其输入进行一系列二维卷积变换。最后,将二维卷积网络的输出输入logistic回归,该回归预测任意两个残基形成接触的概率。此外,每一个卷积层之前也有一个简单的非线性变换称为整流线性单元(rectified linear unit)。从数学上讲,一维残差网络的输出只是一个维数为L×m的二维矩阵,其中,m是网络最后一个卷积层产生的新特征(或隐藏神经元)的数目。从生物学角度讲,这个1维残差网络学习的是残基顺序的上下文。通过叠加多个卷积层,该网络可以在非常大的连续上下文中学习信息。二维卷积层的输出具有L×L×n的维数,其中,n是该层为一个残基对生成的新特征(或隐藏神经元)的数目。2维残差网络主要学习接触发生模式或高阶残基相关性(即残基对的2D上下文)。每一层的隐藏神经元的数量可能有所不同。
网络由两个残差神经网络组成,每个残差神经网络又由一些连接在一起的残差块组成。图2示出了由2个卷积层和2个激活层组成的残差块的示例。在这个图中,X_l和X_l+1分别是块的输入和输出。激活层在不使用任何参数的情况下对其输入进行简单的非线性变换,使用ReLU激活函数来进行这种转换。为了加快训练速度,还在每个激活层之前添加了一个批处理规范化层,它将其输入标准化为平均值为0,标准偏差为1。1D卷积层使用的滤波器尺寸(即窗口尺寸)为17,而2D卷积层使用的滤波器尺寸为3×3或5×5。通过将许多残差块叠加在一起,即使在每个卷积层使用了一个小窗口大小,该网络可以模拟输入特征和接触之间的非常长的相互依赖关系,以及两个不同残差数对之间的长程互依关系。将一维残差网络的深度(即卷积层数)固定为6,但改变二维残差网络的深度。
2、 AlphaFold
2018年12月,DeepMind的AlphaFold成功预测了43种蛋白质中25种蛋白质的最准确结构,赢得了第13届蛋白质结构预测技术关键评估(CASP)。AlphaFold 构建的模型依赖于深度神经网络,这些经过训练的深度神经网络可以从基因序列中预测蛋白质的属性。DeepMind 的研究人员表示,神经网络预测的蛋白质属性主要有:(a)氨基酸对之间的距离;(b)连接这些氨基酸的化学键及它们之间的角度。DeepMind以跨学科的方式开展工作,汇集了结构生物学、物理学和机器学习领域的专家,应用尖端技术,完全基于蛋白质的基因序列来预测蛋白质的3D结构。
AlphaFold解决的问题是蛋白质折叠问题。输入是一个氨基酸序列,每一个位置代表一个元素,输出是一个拓扑结构,如图3所示,训练了一个生成式神经网络来创建新的片段,这些片段被用来不断改进所提出的蛋白质结构的得分:
如图4所示,AlphaFold算法大致分为以下几个部分:
- 特征工程:序列和MSA特征抽取,结合专家经验数据库,把氨基酸链的输入转换到特征空间;
- 深度神经网络结构预测:依据特征工程中的特征预测氨基酸链的一些性质,比如氨基酸之间两两的距离分布,氨基酸链的夹角分布;
- Potential Construction:结合专家经验构造一个评估函数,来评估步骤2中神经网络输出解的合理程度;
- 结构生成:对于2中预测的距离分布、夹角分布,使用3中的评估函数评估Loss,然后使用梯度下降法优化,直到收敛。
3、AlphaFold2
2020 年 12 月的国际蛋白质结构预测竞赛 CASP ,一项重磅成果引发了科技界所有人的关注:由 DeepMind 开发的 AlphaFold 2 击败一众选手,在准确性方面达到比肩人类实验的结果,被认为是蛋白质折叠问题的解决方案。2021年7 月 15 日,Demis Hassabis、John Jumper 等人在 Nature 杂志上发表了文章《Highly accurate protein structure prediction with AlphaFold》,描述并开源了 AlphaFold2,它预测的蛋白质结构能达到原子水平的准确度。
AlphaFold2是基于氨基酸序列的蛋白质结构预测的深度学习算法,其模型构建依赖于深度神经网络,可以从基因序列中预测蛋白质的属性。简单来说就是通过训练神经网络来对回归目标进行逐步迭代精化。原理从随机生成含有大量冗余的数据开始,通过机器学习训练出一个模型,然后用这个模型做预测会得到一个更有代表性的数据,再用这个数据集再次训练模型,不停进行迭代。
AlphaFold2网络直接预测给定蛋白质的所有重原子的三维坐标,使用基本氨基酸序列和同源序列的对齐序列作为输入 (如图 5e)。
AlphaFold2 网络由两个主要部分组成。首先,网络的主干通过一个称为 Evoformer 的新神经网络块的重复层来处理输入,产生一个 Nseq × Nres 阵列 (Nseq: 序列数,Nres: 残差数) ,它表示一个处理过的 MSA 和一个表示残差对的 Nres × Nres 阵列。Evoformer 块包含许多基于注意力和非基于注意力的成分,它的关键创新是与 MSA 交换信息的新机制,并能直接推理空间和进化关系的配对表征。
网络的主干之后是结构模块(Structure Module),该模块以蛋白质的每个残基的旋转和平移的形式引入了显式的 3-D 结构。这些表征在微不足道的状态下初始化,所有旋转设置为同一性(identity),所有位置设置为原点,能够快速开发和完善具有精确原子细节的高度准确的蛋白质结构。这部分网络的关键创新包括打破链原子结构,允许同时局部细化结构的所有部分,一个新的「equivariant transformer」允许网络隐式地推理未表示的侧链原子,以及损失项可对残基方向的正确性赋予重要权重。在结构模块和整个网络中,通过对输出重复应用最终的损失,然后将输出递归到相同的模块中,加强了迭代完善的概念。使用整个网络的迭代改进(称之为 "循环",与计算机视觉中的方法有关)明显地提高了准确性,但所需的额外的训练时间并不多。AlphaFold2的详细结构如图6所示。
4、 RoseTTAFold
DeepMind 在 2020 年的 CASP14 会议上展示了其在该领域的显著成果 AlphaFold2,当时该技术在预测蛋白质方面取得了排名第一的准确率。华盛顿大学医学院蛋白质设计研究所(Institute for Protein Design)的研究者们很大程度上重现了 DeepMind 在蛋白质预测任务上的表现,他们联合哈佛大学、德克萨斯大学西南医学中心、剑桥大学、劳伦斯伯克利国家实验室等机构研发出了一款基于深度学习的蛋白质预测新工具RoseTTAFold,在预测蛋白质结构上取得了媲美 AlphaFold2 的超高准确率,而且速度更快、所需要的计算机处理能力也较低。
RoseTTAFold利用深度学习技术,根据有限信息准确、快速地预测蛋白质结构。从结构上来看,RoseTTAFold 是一个三轨(three-track)神经网络,意味着它可以兼顾蛋白质序列的模式、氨基酸如何相互作用以及蛋白质可能的三维结构。在这种结构中,一维、二维、三维信息来回流动,使得网络能够集中推理蛋白质的化学部分与它的折叠结构。三轨神经网络产生的结构预测精度接近CASP14中DeepMind的精度,能够快速解决具有挑战性的X射线晶体学和冷冻电镜结构建模问题,并提供对目前未知结构的蛋白质功能的见解。该网络还可以仅仅通过序列信息快速生成精确的蛋白质-蛋白质复合物模型,而传统的方法需要对单个子单元进行建模,然后进行对接。
如图7所示,在该架构中,信息在1D氨基酸序列信息、2D距离图和3D坐标之间来回流动,允许网络共同推理序列、距离和坐标之间的关系。在1D和2D信息处理完成后,在双轨AlphaFold2架构中推理3D原子坐标。由于计算机硬件内存的限制,不能直接在大蛋白质上构建模型,因为三轨模型有数百万个参数;相反,向网络呈现了输入序列的许多不连续作物,其由跨越总共260个残基的两个不连续序列区段组成。为了生成最终模型,将每种作物产生的1D特征、2D距离和方向预测进行组合和平均,然后使用两种方法生成最终的3D结构。首先,将预测的残基-残基距离和取向分布输入pyRosetta以生成全原子模型。在第二种情况下,将平均的1D和2D特征馈入最终的SE-等变层,并且在从氨基酸序列到3D坐标的端到端构建之后,直接生成骨架坐标网络。
5、 DeepAccNet
DeepAccNet是一个深度学习框架,用于估计蛋白质模型中每个残基的准确性和残基-残基距离中的符号错误,并使用这些预测来指导Rosetta蛋白质结构优化。在Rosetta改进方案的多个阶段中,加入准确性预测,可以大大提高所得蛋白质结构模型的准确性,说明深度学习可以改善对生物分子整体能量最小值的搜索。
DeepAccNet结构如图8所示,可在蛋白质结构模型的基础上进行三种类型的预测:每个残基的Cβ局部距离差异测试(Cβ1-DDT)分数,阈值为15Å的局部Cβ接触图,以及来自相应自然结构的有符号Cβ–Cβ距离误差的每个残基对分布。DeepAccNet不是预测每对位置的单个误差值,而是预测误差的直方图,该直方图提供有关可能结构分布的更详细信息,并能更好地表示误差预测所固有的不确定性。
DeepAccNet网络被训练来预测(i)每个残基对的签名Cβ-Cβ距离误差分布(误差直方图或简称estogram),(ii)本地Cβ接触图,阈值为15 Å(称为掩码),(iii)每个残基的Cβ l-DDT得分;Cα取自GLY。网络的输入特征包括:距离图、氨基酸的身份和特性、用三维卷积扫描的局部原子环境、骨架角度、残基角度方向、Rosetta能量项和二级结构信息。多重序列比对(MSA)信息以trRosetta网络的残基间距离预测和ProtBert-BFD100模型(简称Bert)的序列嵌入为形式,也可以选择提供二维特征。网络结构和特征的细节在方法中提供。b 机器学习指导的完善协议以三种方式使用训练后的神经网络;估计的Cβ l-DDT分数用于识别更密集的采样和模型重组的区域,估计的成对误差分布用于指导结构的多样化和优化,最后,估计的全局Cβ l-DDT分数,即每个残基值的平均值,用于在迭代完善过程中和结束时选择模型。
DeepAccNet整合了1D、2D和3D特征,首先在以每个残基为中心的坐标框中对局部原子网格执行一系列3D卷积操作,这些卷积生成描述蛋白质中N个残基中每个残基的局部3D环境特征。这些3D特征以及附加的残基水平一维输入特征通过平铺与2D残基-残基输入特征结合在一起,然后使用ResNet架构将生成的组合2D特征描述输入到一系列2D卷积层中。
4、 ESMFold
大型语言模型被证明可以随着规模的扩大而发展出新的能力,超越了简单的模式匹配,可以进行更高层次的推理并生成栩栩如生的图像和文本。虽然在蛋白质序列上训练的语言模型已经在较小的规模上进行了研究,但人们对它们在扩大规模后对生物学的了解知之甚少。在这项工作中,作者训练了高达150亿个参数的模型ESMFold,这是迄今为止被评估的最大的蛋白质语言模型。作者发现,随着模型的扩展,它们学习到的信息能够在单个原子的分辨率下预测蛋白质的三维结构。
ESMFold与AlphaFold2和RoseTTAFold对多序列输入的蛋白质结构预测具有相当的准确度。但ESMFold突出优势在于,其计算速度比AlphaFold2快一个数量级,能够在更有效的时间尺度上探索蛋白质的结构空间。ESMFold使用ESM-2学习的信息和表示来执行端到端的3D结构预测,特别是仅使用单个序列作为输入(AlphaFold2需要多序列输入),方便研究者在使用时通过模型缩放,将模型大小控制在数百万到数十亿量级参数。需要注意的是,随着模型大小的增加,可观察到预测准确性的持续提升。
与AlphaFold2模型类似,ESMFold模型的架构也可以分为四部分:数据解析部分、编码器部分(Folding Trunk)、解码器部分(Structure Module)、循环部分(Recycling)。ESMFold和AlphaFold2之间的一个关键区别是使用语言模型表示来消除对显式同源序列(以MSA的形式)作为输入的要求。语言模型表示作为输入提供给ESMFold的折叠主干。通过将处理MSA的计算量大的Folding Block模块替换为处理序列的Tranformer模块来简化AlphaFold2中的Evoformer。这种简化或优化意味着ESMFold会比基于MSA的模型快得多。此外,ESMFold是一个完全端到端的序列结构预测器,可以完全在GPU上运行,无需访问任何外部数据库。
如图9, ESM-2使用了一个BERT风格的仅有编码器的Transformer架构,并进行了修改。在扩展ESM模型时,改变了层数、注意力头数、隐藏大小和前馈隐藏大小。原始的Transformer论文使用绝对的正弦位置编码来告知模型关于token的位置。这些位置编码被添加到编码器堆栈底部的输入嵌入中。在ESM-2中,使用了旋转位置嵌入(RoPE),以允许模型推断出它所训练的上下文窗口。RoPE略微增加了模型的计算成本,因为它将自注意力范围内的每个查询和关键向量都乘以一个正弦波的嵌入。
AlphaFold2的架构分为两个主要部分,即Evoformer和结构模块。结构模块将最终的表征处理成用于原子级结构预测的三维坐标,不需要做任何改变就可以与ESM-2一起使用。然而,Evoformer建立了单独的MSA和残基对嵌入空间。为了使Evoformer块适应语言模型的特征,ESMFold做的主要改变是消除其对MSA的依赖。由于MSA是二维的,Evoformer在MSA的列和行上采用了轴向注意。语言模型的特征是一维的,所以我们可以用这个特征空间的标准注意力来代替轴向注意力。Evoformer块中的所有其他操作都保持不变。我们把这种简化的结构称为折叠块。ESMFold做的第二个变化涉及到模板的去除。模板信息是以成对距离的形式传递给模型的,是残基对嵌入的输入。作者简单地省略了这一信息,转而传递来自语言模型的注意力图,因为这些已经被证明可以很好地捕捉结构信息。ESMFold有48个折叠块。它在256大小的蛋白质作物上进行了最初的125k步的训练,然后在384大小的作物上用structural violation loss进行了25k步的微调。使用AlphaFold2中引入的框架对齐点误差(Frame Aligned Point Error,FAPE)和distogram损失,以及用于预测lDDT和pTM得分的heads。省略了屏蔽的语言模型损失。冻结语言模型参数,用于训练ESMFold。