中山大学团队使用端到端图生成架构进行分子图编辑的逆合成预测

逆合成规划（Retrosynthesis planning），即确定一组可用反应以合成目标分子的过程，仍然是有机合成中的主要挑战。最近，计算机辅助合成规划重新引起人们的兴趣，并提出了各种基于深度学习的逆合成预测算法。然而，大多数现有方法都局限于模型预测的适用性和可解释性，仍需要进一步提高预测精度到更实用的水平。

受化学反应机制中箭头推动形式主义的启发，中山大学的研究人员提出了一种用于逆合成预测的端到端架构，称为 Graph2Edits。

具体来说，Graph2Edits是基于图神经网络以自回归的方式预测产物图的编辑，并根据预测的编辑顺序依次生成转化中间体和最终反应物。在标准基准数据集 USPTO-50k 上进行评估，该模型实现了基于半模板的逆合成的最先进性能，具有 55.1% 的 top-1 准确率。

该研究以「Retrosynthesis prediction using an end-to-end graph generative architecture for molecular graph editing」为题，于 2023 年 5 月 25 日发布在《Nature Communications》。

有机合成是多个化学领域的核心部分，包括药物发现、化学生物学和材料科学，旨在通过各种有机反应有效地构建化合物。逆合成是有机化学家广泛使用的一种方法，通过将目标分子递归分解为更简单的前体来设计目标分子的合成路线。

逆合成分析是一个一对多的问题，由于所有可能的化学转化的巨大搜索空间和对反应机理的不完全理解，即使对于经验丰富的化学家来说也是具有挑战性的。因此，几十年来，研究人员一直在寻求基于计算机辅助综合规划（CASP）的高效、准确的方法。近年来，随着人工智能 (AI) 技术的快速发展和化学数据的积累，数据驱动方法如雨后春笋般涌现，帮助化学家在设计合成实验时节省了大量时间和精力。

三类逆合成模型

现有的基于机器学习的逆合成模型大致可分为三类：基于模板的方法、无模板方法和基于半模板的方法。

基于模板的方法

基于模板的方法在概念上类似于有机化学家选择已知反应类型以应用于目标分子的过程。模板对描述反应过程中分子变化的核心反应规则进行编码，通常是从化学反应数据集中提取的。在构建反应模板库后，算法将目标分子与这些模板匹配，并通过匹配的模板将产物分子转化为反应物分子。

由于选择和应用合适的模板来生成化学上可行的反应物是一种更有效和可解释的方法，因此已经提出了各种工作来使用不同的方法来确定模板的优先级。尽管它们在逆合成预测中具有巨大的潜力和可解释性，但基于模板的方法由于无法预测模板库外的反应而覆盖范围有限，并且由于昂贵的计算成本而无法扩展到大规模模板集。

无模板方法

相比之下，无模板方法通过直接将产物转化为潜在反应物来绕过构建外部模板数据库的需要。该领域的现有工作认识到，通过将分子表示为文本，例如简化的分子输入行输入系统 (SMILES) 字符串，可以将逆合成视为神经机器翻译问题。一个早期的例子是序列到序列 (seq2seq) 模型，它通过长短期记忆 (LSTM) 架构将产品的 SMILES 转换为其反应物的 SMILES。在此工作的基础上，后续研究通过应用更高级的自然语言处理 (NLP) 模型 Transformer 实现了更好的性能。这些方法的主要缺点是并非所有生成的 SMILES 字符串都会产生有效的化学结构。

与基于模板的方法相比，无模板方法直接逐字符生成反应物SMILES，无需子图匹配计算，具有更大的泛化潜力和相对较低的计算成本。然而，线性 SMILES 表示不能有效地捕获分子中丰富的结构信息，例如原子间关系。由于这些模型通过顺序输出单个符号来生成 SMILES 字符串，因此它们的预测在多样性和可解释性方面受到限制。

基于半模板的方法

受化学家专家经验的启发，最近开发了基于半模板的自动化逆合成预测方法来解决上述问题。基于半模板的方法定义为不使用反应模板，也不直接将产物转化为反应物，而是通过多步生成的中间体或合成子来预测最终反应物。

基于在化学反应中只有一小部分分子结构被改变这一事实，大多数现有研究将逆合成分解为两个步骤：首先使用图神经网络 (GNN) 识别反应中心，通过分子编辑形成合成子，然后通过图生成模型、Transformer 或子图选择模型将合成子完成为反应物。

这些两阶段框架通过将一对多生成问题简化为多个一对一翻译过程来增强可扩展性和多样性，并在逆合成预测任务中表现出良好的性能。然而，此类方法需要训练两个独立的模块来完成转换，而忽略了化学反应中中心识别与合成子完成之间的紧密联系。此外，它们中的大多数最多只关注一个原子或键中心，这使得处理涉及多个中心的反应具有挑战性，这在成环过程中尤为常见。相比之下，端到端框架 MEGAN 将单步逆合成建模为对产品图应用一系列编辑的过程，但由于编辑序列较长，性能相对较低。

在有机合成中，通过应用箭头推动方法来理解反应机制至关重要，这种方法使用分子图中的箭头序列简化了逐步电子转移。但是，这类方法中的大多数不能直接用于逆合成预测，因为在正向反应预测中不需要添加其他离去基团或原子。值得一提的是，基于半模板的 MEGAN 是第一个将反应建模为逆合成预测的编辑序列。也许由于复杂的编码器-解码器框架和原子级的添加操作，这项工作使反应物的生成具有挑战性，并且在需要连接大离去基团的反应中表现不佳，并且在基准数据集上显示出相对较低的准确性。

一种新的基于半模板的逆合成预测模型

受上述反应机制描述中使用的箭头推动形式主义的启发，中山大学的研究人员将逆向合成描述为通过基于反应转化的简化机制顺序修改产物图来预测反应物图。这种策略可以结合基于模板和无模板方法的优点，并提供更好的预测可解释性。他们简化了网络架构以有效地学习分子表示，用附加子结构代替添加原子操作以减少生成步骤，并提高生成反应物的效率。

该团队依此开发了一种端到端的基于半模板的逆合成预测模型 Graph2Edits，它从产物图中预测可能的编辑序列，并依次生成中间体和反应物。

与之前将预测限制为模板集的基于模板的方法和无法捕获分子图中丰富结构信息的无模板模型相比，Graph2Edits 是一种基于图形的模型，它将一步逆合成视为将一系列图形编辑应用于产品图形并生成反应物分子，就像化学家思考反应如何发生一样。

对基准数据集 USPTO-50k 的综合评估表明，该方法实现了 55.1% 的 top-1 精确匹配精度，并且与其他最先进的模型相比显示出可比或改进的性能。在大而嘈杂的 USPTO-full 数据集中，Graph2Edits 也取得了 44.0% 的 top-1 准确率，明显高于基线 MEGAN，接近最先进的模型。这些结果表明该模型具有出色的泛化性和鲁棒性。

重要的是，由于多步生成预测任意长度的编辑，该模型可以更有效地搜索似是而非的反应的潜在空间并提高预测结果的多样性。大量实验证明了该方法在一些复杂反应中的优越性。特别是，对包括分子表征在内的模型预测的详细分析表明，这种策略可以增强逆合成模型的合理性和可解释性。

挑战与展望

Graph2Edits 的广泛应用还存在一定的挑战。首先，该模型无法处理将相同的离去基团附加到分子图中的多个原子，因为在预定义的编辑中没有加键。一个典型的例子是将羰基或醛基保护成环状缩醛的反应。

此外，从数据集中提取图形编辑高度依赖于产物和反应物之间的原子映射信息，这意味着不正确的匹配会产生误导性的编辑序列，从而使训练模型产生偏差。由于反应条件的缺失，该模型预测的反应生成过程与实际的化学反应机理在生成顺序或其他细节上可能存在一些差距。

正因为如此，该模型可以根据训练集中反应转化规则的频率为目标化合物提供多种反应物，因为逆合成是一个一对多的映射问题，可能有几种不同的反应途径来合成目标化合物。

研究人员表示，这一挑战可以促使他们在不久的将来设计更接近化学知识的人工智能逆合成模型。

此外，尽管目标化合物可能具有多个反应中心并通过不同的反应类型产生不同的底物，但其反应性可能特定于独特的化学环境。未来引入更多具有化学意义的模块和收集高质量反应数据集的工作，将有助于更好地提高模型对单步逆合成预测的适用性和可解释性。

论文链接：https://www.nature.com/articles/s41467-023-38851-5