化学经纬
化学经纬

1.7亿的虚拟化合物库(化合物可按需合成)

chem药物研发3.8W+

正如“中心法则”告诉我们蛋白(靶点)决定生物学功能一样,化合物库决定小分子药物研发的速度和质量。在药物研发的军备竞赛上,化合物库的多样性和数量同等重要。花费巨资和数十年光阴才能建立百万级的库,这种方式已经不能满足人类尽快战胜疾病的需求了,而近年受资本追捧的DNA编码化合物库(DEL)尽管能在短时间建立数十亿甚至千亿级的库,但其由于反应环境(水)和反应类型的贫乏,导致多样性备受诟病,这也是DEL命中率低的原因。另外,在计算机辅助药物设计方面,目前所谓的人工智能产生的化合物往往新(guĭ)奇(yì)且复杂,给合成化学提出相当大的挑战;而虚拟筛选则又太多的假阳性。


为了应对上述问题,近日美国加州大学旧金山分校(UCSF)的Brian K. Shoichet、John J. Irwin北卡罗来纳大学教堂山分校医学院的Bryan L. Roth等研究者与知名商业化合物库公司Enamine和Chemspace合作,在Nature 上发表了一项研究,应用70,000种砌块和130种研究充分的化学反应构筑总量为1.7亿的虚拟化合物库(化合物可按需合成)共包含1070万种购买不到的骨架类型。以AmpC β-内酰胺酶(AmpC)和D4多巴胺受体为靶点,他们基于分子对接(docking)虚拟筛选结果分别合成了44个和549个评分最高的化合物。后续的测试表明,命中率(活性满足要求的化合物所占百分比)分别为11%和24%,远高于传统的虚拟筛选。从这些候选化合物出发,他们成功地发现了全新类型的AmpC高活性非共价抑制剂和D4多巴胺受体高活性、高选择性激动剂。

1.7亿的虚拟化合物库(化合物可按需合成) 第1张



首先他们应用DOCK3.7的打分函数对其中抽样出的9900万化合物与AmpC的结合进行能量打分排序,并合成了排序在前的44个化合物,发现有5个化合物对AmpC的抑制常数(Ki)在1.3-400 μM之间(命中率11%)。随后对其中抑制活性最强的化合物ZINC339204163(Ki = 1.3 μM)进行优化,得到ZINC549719643(Ki = 77 nM),这不仅是之前从未报道过的抑制剂结构类型,也是已知最强的AmpC非共价抑制剂。更有意思的是,ZINC549719643与AmpC的共晶结构显示其结合方式与计算机预测的结合模式基本一致。

1.7亿的虚拟化合物库(化合物可按需合成) 第2张

1.7亿的虚拟化合物库(化合物可按需合成) 第3张



随后,研究人员将目光投向D4多巴胺受体。为了寻找到新的激动剂化学类型,他们采用总量为1.38亿的化合物库进行筛选,并将与ChEMBL中结构疑似多巴胺能、5-羟色胺能和肾上腺能受体激动剂的约28000个化合物和350万现有的库存化合物排除在外。将对接打分前1000的化合物中549个合成出来进行活性测试,发现有122个在10 μM浓度下对D4多巴胺受体有超过50%的结合(命中率24%),其中81个Ki 在18.4 nM到8.3 μM。

1.7亿的虚拟化合物库(化合物可按需合成) 第4张



除了新的化学类型,这些化合物还表现出对D2、D3多巴胺受体的高选择性。例如,ZINC621433144对D4多巴胺受体的Ki 达4.3 nM,而对D2、D3多巴胺受体的Ki 都超过10 μM,选择性超过2300倍,而其EC50更是低至180 pM,是已知最强的选择性D4多巴胺受体激动剂之一。从分子对接结果来看,这些分子除了与S196,、F410、F411以及D115等多巴胺受体共有的残基相互作用外,还与F91和L111等D4多巴胺受体特有的残基相互作用,这也解释了高选择性的来源。

1.7亿的虚拟化合物库(化合物可按需合成) 第5张



研究者在本文中还评估了分子对接方法的可信度,也就是候选分子的对接打分能否代表它们的真实生物活性。他们发现,以D4多巴胺受体为靶点的分子对接得分最高的化合物中,命中率约25%;而对接得分最低的化合物中,命中率直接降到0%。


通常情况下,虚拟筛选研究都需要人类科学家的帮助,他们科学家们会肉眼审视高分化合物,利用他们的药物发现知识和经验来判断哪些药物值得优先考虑。本文研究者的结果表明,以D4多巴胺受体为靶点的筛选中,有人类科学家参与的命中率与仅仅依靠对接打分的命中率基本相同。尽管人类科学家在命中率一项上没有表现出优势,但人类科学家选择的化合物具有更高的活性,这也证明了人类的专业知识和经验并非目前的计算机方法可以替代。


简评


本文研究充分证明,在药物虚拟筛选中,化合物库是“越大越好”;同时,提前考虑化合物的合成问题也很重要,这避免了“看得到拿不到”的窘境,毕竟,只有实实在在的生物活性达到要求的化合物,才有那么一丁点的成药可能。此外,分子对接方法在目前是可信的虚拟筛选方法,文中给出的两个靶点的苗头化合物命中率分别是24%(D4多巴胺受体)和11%(AmpC),远远高于传统的虚拟筛选。这使得那些没有太丰富药物发现专业知识和经验的研究团队,也能进行相关研究。而且,随着新的合成砌块和反应的加入,这一可按需合成的超大化合物库还在快速增长中,预计在2020年将达到十亿级规模,并且将免费对研究者开放[1-2]

1.7亿的虚拟化合物库(化合物可按需合成) 第6张

快速增长的化合物库。图片来源:Nature


说了优点就要谈到不足。首先,对巨大化合物库的虚拟筛选需要耗费大量的计算资源和费用,并不是所有实验室都能承受。其次,尽管本文的筛选命中率(24%和11%)远高于传统的虚拟筛选,但距离理想情况仍有距离,还需要大量的合成工作来确定真正有效的分子,如果能进一步提高命中率,将大大提高效率,降低研发成本和时间投入。此外,分子对接不但对化合物库要求高,对于靶点(尤其是结合位点)的结构数据要求也很高,考虑到该化合物库很快就能达到十亿量级,未来决定研发效率的,很有可能是靶点了。


但无论如何,本文工作使得药物研发距离笔者一开始写下的梦想又近了一步,希望未来能有更大的突破来挽救本人的发际线。


Ultra-large library docking for discovering new chemotypes

Nature, 2019, 566, 224–229, DOI: 10.1038/s41586-019-0917-9







发布评论1条评论)

您需要 登录账户 后才能发表评论

评论列表

2019-11-24 19:15:27

这个 700亿复合物在活性位点采样应该怎么理解呢?和1.38亿分子库是什么关系呢?
非常感谢