新突破，宁康/薛志东/张阳通过通过海洋宏基因组学，开发预测新蛋白质家族的结构和功能

海洋微生物组是最大的微生物组之一，并通过光合作用或化学合成在地球上产生近一半的一次能源。利用海洋基因组学的最新进展，研究探索了海洋元基因组在蛋白质结构和功能预测中的新应用。2019年10月1号，华中科技大学宁康、薛志东研究团队与密歇根大学张阳共同通讯在Genome Biology上在线发表了题为Fueling ab initio folding with marine metagenomics enables structure and function predictions of new protein families的研究论文，该研究结果证明了通过海洋宏基因组学提高蛋白质结构和功能建模能力的新途径，特别是对于具有很少同源序列的蛋白质。为了推断蛋白质的生物学功能，特别是那些新发现但尚未解决结构的蛋白质，基于计算机的结构预测可以发挥重要作用。对于结构预测问题，两种建模策略都得到了广泛的考虑。首先，基于模板的建模(TBM)是以蛋白质数据库(PDB)中的已解决结构为模板构建结构模型的方法，是检测接近同源模板最可靠的方法之一。然而，当模板的同源性降低(通常是查询的序列标识<30%)时，建模的准确性会急剧下降。因此，无模板建模(TFM)方法(或从头建模)在PDB中不具有同源性的“硬”蛋白质建模中引起了广泛的兴趣。然而，由于力场中缺乏可靠的远距离原子相互作用，传统的基于物理的TFM方法的成功率很低，而且最好的方法只能对大约100个氨基酸以下的小蛋白质进行有限的精确预测。最近的CASP实验在TFM中取得了重大进展，这主要归功于基于序列的接触图预测的准确性提高，以及接触图与最先进结构装配模拟方法的有效耦合。由于大多数的接触图预测都依赖于同源蛋白的多序列比对(Msa)的共同进化信息，因此，足够数量的同源序列是这些方法成功的关键。最近，Ovchinnikov等人。利用由近400万个独特序列条目组成的集成微生物基因组数据库，为缺乏PDB中同源结构的614个Pfam蛋白家族建立基于Rosetta的接触图预测和高置信度模型。使用UniRef20，Michel等，结合接触图预测和基于CNS的折叠方法，预测558个未知结构的Pfam家族的蛋白质结构，其特异性估计为90%。在这里，我们开发了新型研究手段，将C-QUARK与Tara Oceans数据库中的海洋生物群序列结合起来，以研究尖端TFM方法在全基因组结构建模和功能注释方面的能力，重点研究海洋微生物群对选择性Pfam家族的具体影响。这里，C-QUARK是一种新的从头结构组装方法，它将QUARK与多个最先进的接触预测器的接触靶点预测相结合。在最近的CASP 13实验中，C-QUARK对45个FM和FM/TBM域中的33个产生了正确的折叠(TM-分数>0.5)，这是实验中所有自动服务器中FM目标折叠率最高的。C-QUARK的优点之一在于QUARK模拟的能力，即使没有模板和接触靶点预测的帮助，QUARK模拟也可以将许多序列与低到中等质量的模型折叠。研究结果表明，将C-QUARK与基于深度学习的触点地图预测结合起来建立在新的Tara Oceans数据库上，可以显著提高计算结构预测的产量，特别是对于非同源硬目标，这将有利于解释许多以前的方法和数据资源无法获得的蛋白质家族的功能洞察力。原文链接：https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1823-z
（责任编辑：tqh）

新突破，宁康/薛志东/张阳通过通过海洋宏基因组学，开发预测新蛋白质家族的结构和功能

相关内容

免费咨询

相关内容

免费咨询

微信扫一扫以下二维码