​将专家知识与深度学习结合,清华团队开发DeepSEED进行高效启动子设计

2023-10-27 11:20 751 阅读 ID:1557
机器之心
机器之心

设计具有所需特性的启动子在合成生物学中至关重要。人类专家擅长识别小样本中的强显式模式,而深度学习模型擅长检测大数据集中隐式的弱模式。生物学家通过转录因子结合位点(TFBS)描述了启动子的序列模式。然而,顺式调控元件的侧翼序列长期以来一直被忽视,并且经常在启动子设计中任意决定。

为了解决这一限制,清华大学的研究团队引入了 DeepSEED,这是一种人工智能辅助框架,可通过将专家知识与深度学习技术相结合来有效地设计合成启动子。

启动子是调节基因表达的核心遗传元件。设计具有所需特性的合成启动子以精确控制基因表达是生物合成工程和基因治疗的必要条件。强或诱导型启动子对于实现高转基因表达和最大化治疗效果是必不可少的。人们认为启动子的特性主要由顺式调控元件决定,即转录因子结合位点(TFBS),例如原核生物中的–10/–35元件和真核生物中的TATA-box。

TFBS 的序列偏好通常概括为基序并由位置权重矩阵 (PWM) 表示。由于 TFBS 的序列和功能通常是众所周知的,因此大多数研究人员通过操纵 TFBS 基序的组合和排列来设计新的启动子。然而,最近的证据强调 TFBS 侧翼序列也显著影响启动子特性。

TFBS 周围的侧翼序列的作用涵盖各个方面,包括物理化学特性(例如 DNA 形状)的影响、某些 TFBS 的特定侧翼序列偏好以及侧翼区域中存在增强 TF 结合的潜在低亲和力结合位点。很难将这些特征概括为明确的启动子设计规则;因此,在当前的启动子设计方法中很大程度上尚未探索侧翼序列的优化。

深度学习模型在真核和原核启动子工程中都显示出巨大的潜力。在这里,清华大学的研究团队提出了 DeepSEED(基于深度学习的侧翼序列工程,用于高效启动子设计),这是一种用于合成启动子设计的人工智能辅助侧翼序列优化方法。

                                                   图示:DeepSEED 方法概述。(来源:论文)

DeepSEED 旨在将专业知识与数据驱动模型的力量相结合,以促进高效的启动子设计。DeepSEED 由两个深度学习模型组成:一个是基于预设序列元素生成侧翼序列的条件生成对抗网络 (cGAN),另一个是基于 DenseNet-LSTM 的模型(其中 LSTM 表示「long short-term memory」),用于预测启动子属性。

为了设计具有所需特性的合成启动子,用户可以根据他们的先验知识,首先在任何位置输入任意数量的感兴趣的序列元件(例如 TFBS)作为「seed」,然后 DeepSEED 将根据「种子」生成侧翼序列,以适应启动子的隐式模式。随后,为了评估侧翼序列的重要性,研究人员使用预测模型和显著性图研究了功能性大肠杆菌启动子中侧翼区域的不同影响模式。此外,研究人员采用 t 分布随机邻域嵌入(t-SNE)来进一步分析和确认启动子活性与侧翼序列中 DNA 形状特征之间的关系。

                                     图示:DeepSEED 捕获侧翼序列中的隐含模式。(来源:论文)

接下来,该团队将 DeepSEED 应用于三种不同的启动子设计任务:原核组成型启动子、原核 IPTG 诱导型启动子和真核强力霉素诱导型启动子。在所有这三种情况下,DeepSEED 通过优化侧翼序列,在实现所需的启动子特性方面表现出显著的改进,并且成功率很高。DeepSEED 生成的合成启动子表现出高度的序列多样性,同时保留了关键特征,例如 k 聚体频率和 DNA 形状特征。这些合成启动子表现出与天然基因组的低序列相似性,以及与随机侧翼序列相当的编辑距离。

这项研究强调了侧翼序列在确定启动子特性中的重要性。该团队强调在启动子设计中考虑更广泛的侧翼序列的重要性,而不是仅仅关注相邻的基序。DeepSEED 成功学习了侧翼序列的隐式模式,显著图和嵌入空间探索的结果表明 DeepSEED 提取的特征与启动子活性相关。可解释性分析对于理解基因表达调控至关重要。

这里重点关注了模型学到的 k 聚体频率和 DNA 形状特征来提供部分解释,但侧翼序列调节背后的生物学机制仍不清楚。深度学习模型的可解释性仍然是一个挑战。随着深度学习模型解释方法的快速发展,将深度学习和生物实验结合起来,以明确的方式揭示侧翼序列的特征如何影响启动子特性是可能的。

                                        图示:大肠杆菌中 IPTG 诱导型启动子的设计。(来源:论文)

该团队在质粒系统中通过实验验证了 DeepSEED 设计的启动子,并证明了它们在不同细胞类型中的功能和有效性。然而,在将合成基因表达盒整合到基因组中的情况下,例如在 CAR-T 细胞疗法中,调控元件的行为可能会受到其基因组背景的影响,包括染色质可及性、核小体排列、表观遗传修饰等。因此,需要进一步的研究和验证来评估这些人工智能设计的启动子在基因组环境中的性能。

当前版本的 DeepSEED 专门用于优化启动子的表达水平,因为缺乏足够的大数据训练集来实现其他功能特性。虽然许多 DeepSEED 设计的诱导型启动子通过提高最大诱导表达水平成功实现了高诱导率,但值得注意的是,其中一些启动子还表现出基础表达水平升高,导致诱导率受损。

为了克服这些限制,未来需要开展工作,利用高通量技术生成足够的特定任务实验数据,例如大规模并行报告基因检测,DeepSEED 可以在这些数据集上进行进一步训练,以解决和优化启动子工程的其他关键方面,包括渗漏表达、序列稳定性、细胞类型特异性等。使用这样的策略,还可以进一步应用 DeepSEED 框架来设计各种生物体中其他类型的合成遗传元件。

论文链接:https://www.nature.com/articles/s41467-023-41899-y

免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
反馈
to-top--btn