2014年,Broad研究所和麻省总医院的研究人员在ExAC数据库(the Exome Aggregation Consortium,外显子组整合数据库)中公布了约1000万个遗传变异。研究人员近日描述了他们收集数据的过程,并鉴定出了3200个可能与人类遗传病发展相关的基因,这项研究8月17日发表在《Nature》上。
文章通讯作者Daniel MacArthur说,“像世界各地的许多实验室一样,我的实验室从四年前开始对罕见病患者进行测序起就发现,分析患者外显子组测序数据的一个关键挑战是,每个人都携带了成千上万个基因变异。” MacArthur是Broad研究所医学和群体遗传学的联合主任,麻省总医院和哈佛医学院的助理教授。他表示,研究人员和临床医生需要数据库告诉他们,哪些在患者中发现的基因变异在健康人中也出现,以及这些基因变异有多普遍,以便研究人员根据这些信息识别那些真正导致疾病的基因变异。
MacArthur指出,该项工作突显了数据共享的重要性,如果这项工作中的20多个研究小组和30多个首席研究员没有共享数据,这个项目就不可能完成。
研究人员收集了欧洲人、非裔美国人、东亚人、南亚人和拉美人的外显子组测序数据。他们使用Broad研究所开发的新版本的基因组分析工具包(GATK)HaplotypeCaller对原始数据进行分析,识别了60702个样本共有的一组变异。
研究人员生成了汇总文件,通过公开访问的网站于2014年公布了这些识别的变异。自公开以来,该资源已经被世界各地的研究人员使用了超过五百万次。MacArthur说,“它主要用于罕见病患者基因变异的解读中,如今几乎所有的临床诊断实验室都在使用ExAC资源作为诊断罕见病患者的标准资源库。”
在他们的新研究中,研究人员过滤并分析了ExAC数据库的数据,来计算序列变异致病性的客观指标,并鉴定经受住各类突变的强力选择的基因。
MacArthur解释,数据库中的健康人能帮助研究者鉴定出耐受变异的基因,进而缩小范围,更容易地找到导致遗传病如肌肉萎缩症或癫痫的基因。
MacArthur说,“我们利用这个资源,总共找出了3000多个基因最有可能与疾病相关。但是其中超过2/3的基因还没有与具体的疾病关联起来。”
另外,MacArthur和他的团队发现,近200个被报道导致疾病的基因变异在ExAC数据库中太常见了而不可能与疾病相关。他说,“它们是由于错误进入数据库的无害变异,我们应该使用这个资源来纠正这类错误。”
研究人员表示,尽管ExAC数据库几乎是以前资源的十倍大,且包含了相当多的多样性,但它还不能代表全球的人口。MacArthur说,他们鉴定出的可能与遗传病相关的基因可以优先用在下游的研究中。
参考文献:Analysis of protein-coding genetic variation in 60,706 humans. Nature, doi:10.1038/nature19057
(责任编辑:xgh)