计算蛋白质结合研究广泛用于研究基本生物过程,从而促进现代药物、疫苗和疗法的开发。评分函数旨在评估和排序预测蛋白质复合物的结合强度。然而,蛋白质结合界面的准确评分仍然是一个挑战。
佛罗里达国际大学(Florida International University)的研究人员展示了 Protein binding Interfaces with Transformer Networks (PIsToN) 的方法来区分天然蛋白复合物和不正确构象。
蛋白质界面被转化为二维图像(界面图)的集合,每个图像对应于一种几何或生化特性。其中,像素强度代表特征值。其神经网络改编自视觉 Transformer,同时进行了多项增强:接受基于经验的能量术语的混合组件、突出基本特征和结合位点的多注意力模块以及使用对比学习,从而获得更好的性能。
该研究以「Evaluating protein binding interfaces with transformer networks」为题,于 2023 年 9 月 7 日发布在《Nature Machine Intelligence》。
随着基于机器学习的 AlphaFold 等工具的出现,蛋白质结构预测变得更加容易处理。该领域的下一个挑战是蛋白质对接。给定两种蛋白质结构(例如,设计的分子和受体或抗体和抗原),对接方法旨在通过计算预测可以形成稳定复合物的最佳结合位置和构象。蛋白质对接工具对于药物、疫苗和疗法的成功开发至关重要。
虚拟筛选已被证明可以节省药物设计过程中的财力和劳动力资源。然而,用于对接的现代计算工具预测了大量具有良好结合分数的候选复合物,但它们在实验室中尚未得到确认。
科学家已经提出了几种方法来将复杂的 3D 信息简化为紧凑的标签,同时保留与绑定相关的空间特征,从而用于评估蛋白复合物的结合界面。例如,PatchBag 根据小表面单元的几何特征来表征蛋白质界面区域,从而搜索蛋白质之间的进化和功能关系。深度局部分析使用局部定向立方体评估 3D 构象信息。
当前比较优秀的方法,分子表面相互作用指纹 (MaSIF) 采用「patch」数据表示来预测蛋白质相互作用。Patch 被定义为溶剂排除的蛋白质表面上的区域,其围绕潜在接触点具有固定的测地线半径。表面上的每个点都与几何和物理化学特征相关。训练暹罗图卷积网络以最小化交互 patch 的嵌入之间的距离,同时最大化非绑定patch的嵌入距离。据报道,MaSIF 比现有对接工具快 1,000 倍,与标准对接工具相比,精度仅略有下降。
但是,MaSIF-Search 存在许多局限性。首先,Siamese网络只能将属于单个蛋白质的特征作为输入,而排除显式的相互作用属性。虽然 Siamese 方法可以超快速扫描分子表面相容性,但它忽略了基本的相互作用项,例如范德华力、氢键、去溶剂化、相对侧原子之间的距离等等。
其次,MaSIF 训练方法通过随机选择界面区域之外的表面来生成负patch对。因此,负面实例由易于区分的非互补 patch 组成。研究人员假设使用近乎原生的非交互 patch 对可以实现更好的训练。
第三,MaSIF 网络架构仅由卷积层组成,而可以考虑更好的选择,例如基于注意力的模型和时间序列预测。
以 MaSIF-Search 为参照,佛罗里达国际大学的研究人员提出了一种名为 Protein Interface Scoring with Transformer Network (PIsToN) 的工具。
研究人员将蛋白质复合物的界面表示为 2D 多通道图像。与 MaSIF 方法一样,蛋白质表面的圆形「patch」首先与几何和物理化学特征相关。该团队执行额外的步骤,将 patch 转换为图像,其像素强度对应于与 1Å 分辨率的表面点相关的特征值。与 MaSIF 的单 patch 方法不同,该方法考虑来自蛋白质结合界面的成对 patch,使研究人员能够计算基本的相互作用特性,例如原子之间的距离、相对可及表面积 (RASA)、范德华相互作用、互补表面电荷和疏水性等等。
该方法为视觉 Transformer(ViT)模型提供了新颖的适应性,从而提高了预测性能并提供了可解释性。由于 ViT 最适合图像分类,因此选择用于表示特征的图像是一个理想的补充。
除了 ViT 的标准空间注意力之外,该方法还附加了另一个与特征类型(几何或物理化学)相对应的注意力轴。每个蛋白质特性的潜在表示是通过独立的 ViT 网络学习的,并使用 Transformer 编码器在潜在空间中组合。
同时,研究人员使用将经验能量项与表面特征表示相结合的混合组件增强了 ViT 模型。另外,多注意力 ViT 允许通过两种方式进行解释:要素类和分类决策所必需的绑定位点。
并且,研究人员引入了一种具有新颖损失函数的对比学习策略,以学习本地绑定器和诱饵的判别性嵌入。先前对蛋白质界面进行评分的方法使用正随机对或多个正负蛋白质复合物的混合批次。在该方法中,每次训练迭代都包含同一蛋白质复合物的可接受和不正确的结合姿势的多个视图。损失函数中监督对比、边缘排序和二元交叉熵项的组合有助于在嵌入空间中聚集正确的对接模型,同时分离不正确的预测。
PIsToN 在分类和排序任务中优于其他蛋白质界面评估方法。然而,每种方法的误报率都很高,表明需要进一步改进。研究发现,对于 PIsToN 和其他竞争工具 iScore,CAPRI 模型评分排名第一的预测成功率低至 38%。排名性能有限的一个可能原因是绑定位点的竞争。
例如,如果两种蛋白质有几个有利的结合点,当前的方法将无法区分具有最小能量的结合点。PIsToN 模型预测蛋白质结合界面的可行性,但不一定反映结合的强度。
这种改进可以通过对具有实验结合亲和力的蛋白质复合物集(例如 PDBbind)进行额外训练来实现。然而,当考虑前 10 个预测时,PIsToN 识别出了 69% 的正确复合物,这明显优于竞争对手。
事实上,PIsToN 可以将天然结合复合物排名高于其他方法,这表明该模型在虚拟筛选中具有价值。给定两个蛋白质靶标的对接模型,PIsToN 有更高的机会将正确的配置放入前 10 个预测中,从而有可能加快蛋白质-蛋白质相互作用测定的筛选。当需要筛选数千个候选物时,PIsToN 卓越的计算效率可以节省计算资源。虽然当前的研究重点是评估大分子发现,但 PIsToN 可以扩展到蛋白质-配体相互作用,而不需要对网络进行任何改变。另一个应用是分子拟态搜索,其中扫描大量抗体抗原结构的交叉反应性。
与其他界面评分方法相比,PIsToN 的强大性能表明并不总是需要发明新的机器学习技术来提高性能。然而,更重要的是通过反映对该领域理解的工程架构来更有效地使用现有工具。
论文链接:https://www.nature.com/articles/s42256-023-00715-4