在最新一期的《Nature》杂志上,来自韩国首尔国立大学医学研究中心基因组医学研究所的Jeong-Sun Seo及其团队发表了一个Korean基因组序列:题为“ Denovo assembly and phasing of a Korean human genome”,这是迄今为止发表的最为连续的人类基因组,为遗传学家提供了特异性人群参考基因组的重要数据。
图1 实验设计及数据分析流程
作者采用了PacBio 单分子实时(SMRT)测序技术,Bionano下一代图谱技术,微流体linked reads及BAC测序等方法,完成了一个Korean个体AK1(ref.1)基因序列的从头组装和单倍体型定相信息分析。运用PacBio单分子测序技术结合Bionano下一代图谱技术,获得了高度连续的组装图,contig N50高达17.9Mb,scaffold N50高达44.8Mb,并有8个染色体臂被分别组装解析为单独的scaffold。这次从头组装,结合长读长扫描,关闭了常染色体参考基因组190个gap中的105个,并延伸了其中的72个gap,补充了1.03Mb以前棘手的序列。
图2 AK1 de novo assembly scaffolds 与 GRCh38 数据结果进行比较
结合62,758个BAC克隆的组装和Paired-End序列信息,通过与人类参考基因组直接比较,作者还鉴定到了18,210个结构变异,其中发现了数千个以往从未报道过的断裂点。大多数Insertion在转录本中同样得到反映,并存在于其他的亚洲人群中。
作者鉴定到的18,210个结构变异(Structural Variation, SVs),包含7,358个Deletion,10,077个 Insertion,71个Inversion和704个复杂变异(Complex Variants),所有这些变异均在AK1组装结果和人类参考基因组GRCh37之间进行了直接比较,达到了单碱基的分辨率。在18,210个结构变异中,总共有11,927个变异是以前未曾报道的,其中包括的3,465个Deletion占总Deletion的47%,7,710个Insertion占总的Insertion的76%。在这些新的SVs中,86%高度集中于移动元件和串联重复序列。相对应转录本的PacBio长读长序列显示,有155个Isoform是从54个全新的插入位点处表达的,这意味着这些人类基因组中功能元件的存在,在以前是不可能通过短读长技术检测到的。
图3 SV的整体分布
A. 通过直接比较AK1组装图和GRCh37参考基因组比较,检测deletion(红色),insertion(蓝色),inversion(绿色),complex variant(灰色)。外圈饼图表示每种新发现的每种SV类型。总共65%(11,927)的SV是以前未见报道的。
B. AK1中insertion和deletion的重复序列组成。Insertion和deletion都是大部分由移动元件或串联重复序列构成。复杂变异被定义为由几种注释的重复元件构成的变异,或至少30%的剩余序列未被注释为重复序列。
作者还使用来自全基因组测序中的short reads,long reads和linked reads以及来自31,719个BAC克隆的short reads进行了单倍体型定相分析(Haplotype Phasing),获得了N50大小为11.6Mb的Phased blocks。从PacBio单分子实时测序reads组装得到的Haplotigs比对到Phased blocks上的单倍体型覆盖了89%的基因。这些haplotigs准确的描述了高度可变的MHC (Major Histocompatability) 复杂区域,并展示了临床诊断相关的基因的等位基因结构,如CYP2D6。
图4 高度杂合区域的全基因组分布图谱及单体型A/B表达水平分布
图5 MHC Class II区域中的HLA基因。该区域为高度可变的复杂区域,包含了许多结构变异区域,因而通过参考基因组难以做到正确的定相分析,但可以通过de novo的方式进行全长分析
随着测序技术的发展,不同平台对人类基因组都进行了不同层面的测序分析。作者比较了目前已有的人类基因组组装的测序平台,算法,组装和phasing统计数据。比较表明,单分子长读长测序技术在生成高质量组装数据上远超过短读长测序技术。(见下表)
表1 人类从头组装及单倍体型定相信息总结统计
基因组组装和定相(phasing)信息研究的发展,为科学家们在不同人群中研究人类基因组二倍体结构,以及所有结构变异的发现提供了机会。本文利用PacBio第三代单分子测序技术与Bionano下一代图谱技术,展示了目前最为连续的二倍体人类基因组组装结果,进一步研究了未报道过的亚洲人群特异的结构变异,以及可用于精准医学临床诊断的相关等位基因的高质量单倍体型。
参考文献:De novo assembly and phasing of a Korean human genome. Nature 538,243–247 (13 October 2016) doi:10.1038/nature20098
来源:基因有限公司
本周科研进展
9月27日,国际学术期刊《细胞研究》(Cell Research)在线发表了中国科学院上海生命科学研究院生物化学与细胞生物学研究所季红斌研究组的最新研究成果。该研究鉴定出人肺鳞癌中一个新的致病融合基因TRA2B-DNAH5,并揭示了该致病基因的作用机制及潜在的治疗药物。
近日,由南京军区总医院、无锡市妇幼保健院、北京大学和亿康基因组成的团队联合在《PNAS》上发表了无创胚胎染色体筛查技术(NICS)的评价和初步临床研究结果。评价结果显示NICS样本与胚胎样本存在高度的相关性,敏感度和特异性达88.2%和84%,说明NICS技术是一种十分有效的胚胎染色体筛查技术。
最近,一项刊登于《Nature Communications》上的论文中,来自西安交通大学、萨尔兰大学等机构的研究人员通过开发新的计算机算法和分析处理流程,在250个荷兰家庭的基因组中鉴别出所有类型变异,其中包括以前从未观测到的大量复杂型变异,即基因组中的“暗物质”。该研究提供了一套较为完整的基因组变异集合,提供了研究大型基因组结构变异的影响的可能性。
10月6日,由深圳国家基因库、中山大学和浙江大学等机构合作完成的五步蛇基因组学研究成果在线发表于《自然通讯》(Nature Communications)。该研究成果公布了高质量的五步蛇基因组图谱,并通过对不同蛇类基因组的比较分析,揭示了蛇类适应性进化、功能退化和性染色体演化的遗传基础和分子机制,为五步蛇相关药物研发、进化生物学研究等方面提供了基因组学基础数据。
夏普纪念医院的癌症遗传咨询师Brittany Burnett上周在美国遗传咨询师协会的年会上介绍,尽管在赋予遗传性癌症风险的基因中,许多复发性改变都是单碱基改变或小的插入缺失,但新的数据表明,RAD51D基因中较大的种系重排也会使癌症风险上升。
J. Craig Venter研究所和基因组学公司HLI(Human Longevity)的研究者使用Illumina的HiSeq X Ten对10545个人进行平均覆盖度为30X~40X的基因组测序。这项研究10月4日在线发表在《PNAS》上,结果表明大约对8500个基因组进行测序,足以揭示最常见的基因变异,他们总计发现了超过1.5亿个基因变异。
日本神户大学的科研团队于10月6日宣布,他们成功探明了会导致遗传性感音神经性耳聋的基因突变,并制作出再现耳聋患者病征的转基因小鼠。具体成果已于10月5日刊载在知名科学杂志《EMBO Molecular Medicine》上。
一项发表在《新英格兰医学杂志》上的研究中,丹麦哥本哈根大学医院Mansoor Mirza领导的研究人员在553名对铂类化疗有响应的复发性卵巢癌患者中比较了Niraparib相对安慰剂的治疗效果。结果表明,不论患者的BRCA突变或同源修复缺陷(HRD)状态如何,Niraparib药物对所有患者都具有临床意义,Niraparib药物的使用不需要Myriad公司的伴随诊断。这一结果导致Myriad的股票下跌12%。
本期Science推出了一期基因与环境的特刊。特刊封面是在珠穆朗玛峰基地、尼泊尔昆布地区冰瀑当搬运工的夏尔巴人。关于封面的介绍是:人类中的一些人口表现出更大的高海拔耐受性,由于遗传变异,有可能减轻低氧浓度的有害影响。遗传和表观遗传改变了我们对环境的反应,并可能在疾病中发挥作用。
中科院上海生命科学院/上海交大医学院健康科学研究所的研究团队十月十日在《Nature Methods》杂志上发表了一项重要研究成果。他们将活化诱导胞嘧啶核苷脱氨酶(AID)与CRISPR-dCas9融合起来,打造了有效的遗传多样化工具,以便对功能性变异进行高通量筛选。研究人员在慢性粒细胞白血病细胞中用dCas9-AIDx靶标BCR-ABL,有效鉴定了赋予细胞伊马替尼抗性的已知突变和新突变。
白癜风是一种自身免疫性疾病,由于黑素细胞被破坏,导致皮肤出现白色斑块。以前的研究已发现了27个白癜风易感基因位点,一项由科罗拉多大学医学院Richard Spritz领导的研究又进一步发现了23个易感位点。其中许多易感位点参与其他自身免疫性疾病,编码免疫和凋亡调节子以及黑素细胞调节子。相关研究结果于10月10日发表在《Nature Genetics》上。
近期,来自于格罗宁根大学、马斯特里赫特大学的研究团队通过大规模的宏基因组测序,发现人类一些特定的基因会影响细菌的种类以及它们的代谢模式。相关研究成果于10月3日发表在Nature子刊《Nature Genetics》。
日前,一项刊登在国际杂志《Nature Communications》上的研究报告中,来自剑桥大学的研究人员通过研究鉴别出了癌症预后较差患者机体代谢相关的遗传特性,文章中,研究者对8161份组织样本进行了相关的检测分析,相关研究结果或可帮助临床医生更好地治疗患者并且开发新型的靶向性疗法。
2016年10月11日,美国加州山景城——华大基因子公司Complete Genomics(简称CG)与个人基因组计划项目(简称PGP)共同发布了过百人的实验单体型定相全基因组测序结果。这组数据采用长片段阅读技术(简称LFR)读取,是目前最大的有全面实验确认单体型的高覆盖度全基因组组装。作为基因组数据发布的一部分,CG和PGP还在开放期刊GigaScience上发表了关于此数据的描述和全面的数据质量分析。
10月3号,来自中科大单革教授课题组在《Nature Structural & Molecular Biology》发表文章,文章报道了该实验室发现并命名了一个从裂殖酵母到人类都非常保守的长链非编码RNA——5S-OT,在小鼠中,5S-OT能在其被转录产生的染色质区域原位调控5S核糖体RNA(5S rRNA)的转录。
美国研究人员12日说,他们使用CRISPR-Cas9基因编辑技术,在体外成功修复镰状细胞贫血患者干细胞中的致病突变基因,使其可以产生健康的血红蛋白,但相信这足以帮助镰状细胞贫血患者改善病情,为治疗这种血液疾病迈出关键一步。这项研究发表在新一期美国《科学转化医学》杂志上。
(责任编辑:sgx)
测序周报·科研篇:迄今为止最为连续的人类基因组发表
564