三大绝招帮你从外显子组中找到疾病基因突变

去年秋天，千人基因组计划(1000 Genomes Project)揭示了人类基因组中8800万个突变，但科学家们并不清楚其中大部分突变对于人体健康的意义。而且遗传变异与疾病之间的已知关联，其实很多也并不明确。科学家们如何能准确确定哪些基因或遗传变异是真正有害的呢？

患有罕见疾病的患者常常会被这种不确定性困扰，他们在无数次被医生检查和检测之后，通过测序了解了自己的全部或部分基因组，这些测序能提供了一些有希望的答案，但要揭示因果关系，并在此基础上制定一个治疗计划，依然不容易。来自比利时鲁汶大学的免疫学家Adrian Liston说，即使是知道患者的突变，也不一定就能起到治疗的作用。

外显子组测序，也就是覆盖了编码蛋白基因组中1%-2%的序列，一般来说会揭示30,000 个遗传变异，这需要仔细的被评估。生物信息学工具方面的发展也令研究人员快速的缩小了庞大的突变列表。一些网站平台也帮助研究人员构建了因果关系列表。这些步骤很重要, 因为在动物模型或者细胞系中检测候选基因需要大量的资源。

目前有一些免费工具，可以用于分析这种因果关系，见下：

EXOMISER

www.sanger.ac.uk/science/tools/exomiser

Exomiser 是2014年推出的一种开源性JAVA软件包，这种工具能筛选并优化来自全外显子组或全基因组序列数据中的候选基因和突变，主要侧重于表型数据。

这一程序由Monarch Initiative研发的多种不同运算法则组合在一起——Monarch Initiative是一个构建生物生物信息学工具，帮助科学家们更轻松的分析表型、疾病、模型系统和转化研究中基因的跨机构合作组织。

工作机理：

用户输入患者的临床病症和外显子组，那么Exomiser 就能基于更多人群中突变出现的频率，突变类型和突变造成的破坏，以及参与特定疾病或临床病症的相关基因，来生成一个候选突变列表。

Exomiser与其它Monarch Initiative 工具的区别在于前者还能从模式动物中收集数据，预测一个突变是否参与了这个患者的疾病病理，来自多伦多大学Michael Brudno实验室的计算生物学专业Orion Buske说。

这一工具的关键在于 Human Phenotype Ontology ，这是一个超过11,000例临床表征和症状的标准表，已经被广泛用于遗传学研究。斑马鱼、小鼠、果蝇和其它模式生物的类似注释能通过 Exomiser绘制出人体和其它物种之间的联系。而且这种注释也能在功能方面撒网，虽然科学家只了解了与疾病表型有关的35%的人类基因，但是你可以在其它物种中碰碰运气，Buske说。

“我们人体都很保守，因此可以在一般情况下了解人体，这虽然不完美，但总比什么都不知道要好，”Buske说。

此前一项研究也指出，利用人类和模式动物表型的外显子组序列数据评估，能提高诊断效率（Genet Med，doi:10.1038/gim.2015.137，2015年）。

如何入手：

从这篇Nature Protocols 文章开始(10:2004-15、 2015 年)。Exomiser 是一个独立应用程序，可以下载到单机上运行，并且也被纳入了NIH的Undiagnosed Diseases Network。

注意事项：

Exomiser 包含了从千人基因组计划和Exome Variant Server的数据，新版本还收集了来自Exome Aggregation Consortium (ExAC）的数据。

CLINVAR

www.ncbi.nlm.nih.gov/clinvar

ClinVar 是一个公开的数据库，其中收集了与疾病相关的遗传变异。这一数据库由美国国立卫生研究院2013年为了生物技术信息开发而构建，来自美国联盟医疗体系（Partners Healthcare ）的临床遗传学家Heidi Rehm表示，到目前为止，已经从研究人员和其它数据库中获得了包含超过125,000份独特突变的临床注释。

ClinVar 将基因突变对健康影响的多方面性质都考虑在内了，比如对于一个突变，这个研究组说它是良性，但另外一个研究组又认为它其实性质更加严重。而且 ClinVar 也有自己的分类，“可能致病性（likely pathogenic）”就是一种更清楚的定义和标准化。

工作机理：

ClinVar 采用的是星标系统（star-based system），可以评估某个特定突变在疾病中的本来或者注释作用。四星级是最高级，也就是说这个突变的功能已经经过了多位专家的测评。这样详细审查过程的好处在于用户能信任三、四星突变的功能注释，Rhem说，但是在ClinVar 数据库中只有少量此类数据（3,800个）。

更多时候是只有一星的突变，这通常只基于单个提出注释功能的研究成果，还有没有星的，也就是提交者没有提供解释标准和支持证据。ClinVar 工具的一个问题在于其数据库中大多数临床上重要的突变（83%）都是某个家庭中独一无二的，或者非常罕见的。

如何入手：

充分了解ClinVar，可以参阅近期的一份详细用户手册（Curr Protoc Hum Genet, doi:10.1002/0471142905.hg0816s89, 2016），此外还有YouTube上的一个视频video 也解释了不同的搜索项。由于这一工具依赖于提交数据，因此Rehm也鼓励实验室共享数据，提交数据向导可以在 ClinVar 网站上找到。

注意事项：

虽然 ClinVar希望能满足你的所有需求，但实际上并没有那么完美，这主要是因为数据库依赖于自愿提交的材料。“我们尝试说服所有的杂志将ClinVar 作为出版资料的一部分，”Rehm说，目前他们正在朝着这个方向来努力。

同时，他们也在通过多个来源分析患者遗传数据中候选突变的临床意义，包括人类基因突变数据库 (Human Genetic Mutation Database，HGMD)——收集已发表文献中的突变，虽然HGMD管理不佳，“但至少它能找出你的突变也许会出现在哪里，”Rehm也在努力挖掘疾病特异性数据库，寻找特殊突变。

MATCHMAKER EXCHANGE

www.matchmakerexchange.org

Matchmaker Exchange是一个致力于把人类基因和临床特征联系起来的独立数据库网站。目前这一平台主要依靠三个已有的数据库，未来也许能吸纳更多数据，Matchmaker Exchange 除了能收集整理基因-疾病信息，而且也能联合从事罕见病研究的研究人员，共享信息和合作研究。其最终的目标是帮助研究人员能针对某个因果关系基因构建更为可靠的病例，并发布这些信息，因为实验室中的许多罕见病候选基因并未发布，Rehm说。

（配对︰ Matchmaker Exchange最初是由PhenomeCentral, GeneMatcher 和 DECIPHER (虚线箭头)交换构建的，但这个平台很快就能查询更大数量的数据库，每种数据都会给了解罕见遗传学疾病带来各种不同的方法。

工作机理：Matchmaker Exchange的各大数据库：

GeneMatcher

创建一个你感兴趣的基因条目。如果有两人创建了同样的基因条目，那么数据库（会无法搜索）就会给他们发送一封电子邮件。截至今年5月，已经有来自55个国家的1,675 位用户呈递了4,459 个基因，其中1,200个基因获得了超过5,200的匹配。

GeneMatcher的共同创建者之一，约翰霍普金斯医学院的Nara Sobreira说，“它将大家召集在一起，了解患者的详细病症，关联基因的突变。”患者也可以用这一工具。

一些研究也采用了这一方法，比如来自贝勒医学院的研究人员通过 GeneMatcher 再次分析外显子组数据，并利用配对工具寻找相似病例，可提高诊断率。

他们目前在GeneMatcher网站，找到世界各地的其他医生和研究人员，其患者或动物模型有着相同基因的突变。通过GeneMatcher交换项目提供的应用程序界面，提交者还可以查询PhenomeCentral和Decipher数据库。

PhenomeCentral

临床医师和科学家利用 PhenomeCentral 分析表型，PhenomeCentral能帮助用户将罕见，未命名的疾病与Human Phenotype Ontology联系起来。而且也能调用 Exomiser 软件包，过滤和分析每个病例匹配的基因。

DECIPHER

这个基于 web 的数据库汇集了各种生物信息学工具，能帮助临床医师解释变异，并在共享突变和临床数据的基础上进行配对。数据库中有几种方法可以用于配对，比如，非注册用户能搜索DECIPHER中开放患者记录，这覆盖了56,000个表型，1,200 个序列突变，以及28,000个拷贝数变异，和关联数据提交人。用户也可以将自己的项目提交上去，分享已获患者同意的数据，匹配其他研究人员的数据。

未来还将有更多数据库即将上线，包括患者门户网站，如PEER，PatientKind，ClinGen的 GenomeConnect，以及Monarch Initiative的模式生物数据库。

如何入手：

你需要针对这三个数据库中之一创建一个单一日志，挑选最适合你数据，以及有你最想知道问题的数据库。创建一个条目需要大约10分钟，然后就可以筛选其它你想要查询的其它数据了，Buske 说。

注意事项：

使用Matchmaker Exchange的一个理想时间是在项目的晚期，此时你已经有了一个候选基因，或者两个关联基因，基因已确定因果关系，不过你并不清楚哪一个更加匹配你的案例。

Tips：

Whole-genome or whole-exome？

全外显子组测序似乎是更好的选择，原因就是两个字：便宜。对基因组中非编码区中的突变进行诠释依然是个难题，因此目前大多数的数据仍不可用，来自鲁汶大学的Adrian Liston说。

但尽管如此，去年PNAS发布的一种head-to-head比对新方法指出，全基因组测序对于检测发现罕见病候选突变来说更为有效。

采用与你的患者尽可能相似的参考人群

譬如千人基因组计划中的大规模参考人群也许并不合适于您的研究项目，如果你需要的人群在这些数据库中找不到，比如说研究项目是一个相对偏僻的村庄，并不包含在这些项目中，那么你就不得不开始构建自己的参考数据库，或者看看是否有其他人在做。

尽可能分析一个家庭