化学经纬
化学经纬

超算+AI为天然产物生物合成路线规划提供导航

chem化学亮点9.8K+

天然产物(Natural Products)是临床药物开发的主要来源,1981-2020这三十年间获批上市的小分子药物中超过60%是天然产物及其衍生物或类似物。由于从自然界直接提取的方法往往会对生物多样性造成破坏,而天然产物结构中多样的环体系和手性中心导致其化学合成难度较大,因此异源生物合成是获得复杂天然产物的重要手段。解析天然产物生物合成途径是实现异源生物合成中最基础的一步,然而现有生物代谢反应数据库(KEGG、MetaCyc、MetaNetX等)中仅涉及到约3万个天然产物,远小于目前已知的天然产物数目(超过30万)。大量天然产物的生物合成途径目前仍然未知,这极大地限制了天然产物的生物合成。

目前虽然已有基于数据库和反应规则的生物合成路径预测工具,但由于本身已知的酶反应数量不足,且由于不同酶的催化杂泛性和专一性也不同,导致现有反应规则(模板)无法很好地反映酶的催化功能。因此,对于以酶催化反应为核心的生物合成来说,现有基于模板的方法给出的反应路径在实际中常常无法通过相应的酶来催化,并且对于许多生源合成步骤较长,结构较复杂的天然产物,并没有相似度较高的反应模板与之匹配。同时单步反应的预测误差在多步的反应路径预测中会不断积累,因此对于天然产物生物合成路径预测来说,不仅需要提高单步反应的预测精度,同时还需要配合高效的搜索算法对每一步的候选反应进行高效且准确的筛选。

为了解决这一问题,中山大学药学院巫瑞波教授课题组与国家超级计算广州中心杨跃东教授联合星药科技、麻省理工学院和佐治亚理工学院,基于超算的强大计算能力,提出一种深度学习驱动的生物逆合成路径导航工具BioNavi-NP。该工作近日发表于Nature Communications 杂志,论文的共同第一作者为郑双佳、曾涛两位博士生。

如图1所示,该框架中,研究者们首先训练一个Transformer神经网络来进行单步生物逆合成预测,即生成任意目标天然产物的候选前体。在训练好的单步生物反应预测模型的基础上,研究者们进一步开发了一个自动逆向生物合成路线规划系统BioNavi-NP。该系统通过深度学习驱动的基于与或树(AND-OR tree)的搜索算法来解决合成途径潜在大量分支反应造成的组合爆炸问题,从而能够高效且准确地规划出合理的天然产物生物合成途径。给定目标天然产物,BioNavi-NP可在几分钟内给出其到指定分子砌块(building block)的多条路径,并根据已知反应或酶对路径进行打分排序。大量的实验表明,相较于目前最先进的生物合成路径预测方法,BioNavi-NP在内部测试集和外部独立测试集中都表现出了明显的竞争优势。

超算+AI为天然产物生物合成路线规划提供导航 第1张

图1. BioNavi-NP模型示意图

具体来说,在内部测试集中,BioNavi-NP成功找到了368个测试天然产物中90.2%的生物合成途径,并命中了72.8%的化合物的基本构建块(building block),远超出基于模板的搜索方法以及其他搜索算法变体,证明了其在生物逆合成途径阐明和路线重构方面的潜力。预测对比结果见图2。在外部独立测试集的152个天然产物中,BioNavi-NP更是以94.7%的预测成功率超过目前的最优预测方法RetroPathRL(83.6%),计算效率上则与RetroPathRL相当(见原始论文正文及其附件)。

超算+AI为天然产物生物合成路线规划提供导航 第2张

图2. BioNavi-NP在Metacyc天然产物测试集上与最新预测方法的比较结果。

研究者们利用该模型构建了一个用户友好的互动网站 [1]用户仅需要输入感兴趣的天然产物分子,配合基本的参数,便可在数分钟内预测得到其多条可能的生物合成途径。对于多步骤生物反合成路线中的每个生物合成步骤,研究者们可通过网站预先嵌入的酶预测工具Selenzyme和E-zyme进一步评估合成所需要的酶。预测的反应途径将按照计算成本、长度和生物体特定的酶进行分类。

超算+AI为天然产物生物合成路线规划提供导航 第3张

图3. BioNavi-NP网站输出结果示意图。

BioNavi-NP网站对目标化合物的预测结果如图3所示,对于来自多种合成途径的复杂分子(如novobiocic acid和sterhirsutin J),BioNavi-NP能够正确对其结构进行拆分并分别找到其对应的分子砌块。在对戊二酸(glutarate)的生物合成途径预测结果中,BioNavi-NP不仅顺利预测出了已知的两条路径(分别排序第三和第七),并且结果中排序第四的路径与不久前Wang等人(ACS Synth. Biol., 20176, 1922-1930)在大肠杆菌构建的新颖路径基本一致(只缺少部分中间步骤)。这说明BioNavi-NP不仅能对天然产物未知的生源途径做出预测,还能对其异源生物合成途径的重构提供重要参考。

综上,本研究提出了一种新颖的端到端深度学习框架BioNavi-NP,利用Transformer神经网络及与或树(And-Or-Tree)驱动的深度搜索算法预测天然产物的生物合成途径。在已知的天然产物生物合成途径理论预测工具中,这是第一个无需模板的逆生物合成全路径预测模型。实验评估表明,BioNavi-NP模型在内部测试集及多个外部独立公共测试集上都显示出了优异的性能。网站工具的搭建以及酶预测工具的嵌入,使得研究者们能够便利地使用该工具进行合成生物学的研究。文末,作者对当前BioNavi-NP模型的一些局限性也作了讨论。未来,该框架将嵌入多种路径打分排序方法以及原子映射技术,以进一步提高模型的可用性及可解释性,进而推动天然产物生物合成新途径的发现。

Nat. Commun.202213, 3342, DOI: 10.1038/s41467-022-30970-9

发布评论0条评论)

您需要 登录账户 后才能发表评论

还木有评论哦,快来抢沙发吧~