科研进展 | EBV基因组研究方法综述

EB病毒(epstein-barr virus, EBV),又名人类疱疹病毒4型(Human herpesvirus 4, HHV-4)。临床研究表明,EBV与多种疾病具有相关性。因此,对EBV——特别是对EBV基因组的研究,有助于揭示EBV感染诱发疾病的致病机制,从而辅助临床诊断和治疗。本文将对现有的EBV基因组研究方法进行一个概括性的总结。

EBV基因组检测技术的发展历程

EBV属疱疹病毒科嗜淋巴细胞病毒属,是一种感染范围广、致病性较强的病毒,目前已经发现该病毒感染可以导致多种肿瘤及传染性疾病如霍奇金淋巴瘤、传染性单核细胞增多症等。通过对EBV基因组的深入研究,可以帮助我们从根本上了解EBV感染诱发疾病的致病机制,为临床诊断和治疗带来帮助。EBV基因组相关研究的主要内容包括:病毒基因突变位点检测,与宿主基因组整合热点分析,不同亚型间的差异以及进化关系的系统性分析等。随着测序技术的不断发展,EBV基因组的检测技术以及生物信息学分析方法也在不断进步,目前已有上百种EBV基因组被成功测序(如表1所示)。

表1. 已报道的EBV基因组序列的检测技术及相关生物信息学分析汇总

1. 传统的病毒基因组测序方法:鸟枪法测序

传统鸟枪法是一种基于一代Sanger测序技术的测序方法,此方法最初主要用于测定微生物基因组序列,拥有速度快,简单易行,以及成本较低的优点。而近年来随着第二代高通量测序技术(NGS)的逐步发展成熟,鸟枪法同NGS的结合使得鸟枪法测序向前迈进了一大步。

B95-8(第一个被完整测序的EBV株系)、GD1(广东1型)、AG876(已公布的第一个完整的2-型EBV基因组)均是使用鸟枪法成功测序的EBV基因组。

1.1 鸟枪法测序的局限性

“鸟枪法”的主要特点是绕过直接分离病毒基因的难关从基因组DNA文库中直接筛选目的基因,但是这种方法主要是利用“榴散弹设计”的原理去命中病毒基因,当发生病毒基因组整合到宿主基因组时,由于病毒基因在整个基因组中的量相对较小,因此使用鸟枪法很大程度上还需要依靠“运气”。除此以外,鸟枪法测序后续分析时拼接组装困难(尤其在重复序列多的区域),并且Sanger测序的数据通量难以满足大规模测序的要求。

2. EBV基因组的NGS测序

2.1 直接NGS测序(全基因组测序)

GD2是首个使用NGS获得其基因组序列的EBV亚型。通过使用NGS平台对鼻咽癌组织样本进行直接测序,然后将测得的全部序列信息比对到EBV参考基因组上。最终发现只有0.0141%的序列可以同EBV参考基因组比对上。

全基因组测序的方法虽然可以完成对EBV的组装,但是需要对整个宿主细胞系或组织进行测序。通过此法获得的EBV基因组数据量占总测序数据量的比例很低,造成了较大的浪费,因此并不适于大样本量的病毒基因组研究。 

除GD2以外,C666-1(鼻咽癌EBV细胞系)、K4413-Mi/K4123-Mi细胞系、NA系列10个EBV基因组均用此法成功测序。

2.2 EBV富集+NGS测序

直接NGS测序方法的低效费比令研究者们认识到——需要探索出一种既高效又低廉的方法来完成对EBV的测序。而实现这一目标的最有效方式就是在测序之前完成对EBV基因组的富集,从而有效避免冗余数据的产生。

大体来说,针对EBV基因组富集主要通过两种手段:一种是通过诱导病毒复制的方式来完成对病毒基因组的扩增,另一种则是通过PCR反应、基因捕获技术(Gene capture technology)等其他手段完成对病毒基因组的富集。

2.2.1 EBV诱导复制技术

EBV生命周期中有两个具有明显区别的阶段:1. 潜伏期(latency phase),在这一阶段,只有一小部分病毒基因处于表达状态;2. 病毒复制期(lytic reactivation),在这一时期,病毒基因组以游离基因的形式协同宿主基因组一起复制及分离,除了有超过70个基因在这一时期表达外,病毒基因组的量也得到极大的扩增。EBV病毒诱导复制技术正是利用了EBV病毒复制期基因组大量增加的特点,通过对Akata、Mutu细胞系(EBV感染阳性的伯基利淋巴瘤细胞系)B细胞受体信号通路的激活诱使EBV进入复制期并通过IgM(针对Mutu细胞)或IgG(针对Akata细胞)完成对这些细胞的筛选然后进行核酸提取,最终达到对EBV病毒基因组富集的目的。需要注意的是这种诱导技术只能适用于特定的细胞系,因此具有很大的局限性。

2.2.2 PCR富集技术

PCR技术的飞速发展使得我们扩增病毒DNA变得非常容易,通过设计多组引物的方法便可以完成对EBV基因组的扩增。 HKNPC1 EBV的基因组就是通过设计60对引物的方法完成对其序列的测定。PCR富集技术的局限性为:1. 需要设计多组引物,且对于不同的亚型需要设计不同的引物,实验条件需要多次摸索,操作较为麻烦;2. PCR扩增存在一定的偏向性,对于未知亚型的富集效果存在不确定性;3. 特异性不够高。

2.2.3 目标序列捕获技术

目标序列捕获技术(又叫基因捕获技术)按照捕获方式可分为液相捕获和固相捕获两种,液相捕获的捕获效率及成熟程度相对较高。根据探针种类的不同,基因捕获又分为RNA探针捕获(安捷伦),双链DNA探针捕获(迈基诺)以及单链DNA探针捕获(罗氏)三类。RNA探针的捕获效率较DNA探针高,且探针制备相对简单。不过RNA探针容易降解,长期存放会影响其稳定性,捕获效率会逐步降低。单链DNA探针捕获效率相对较低,双链DNA探针,稳定性和捕获效率较为平衡。

目标序列捕获测序目前在基因组研究中广泛使用,主要原因是全基因组测序较低的效费比以及产生的大量冗余数据很难支持大规模样本研究。此外,受数据量限制,全基因组测序的平均测序深度不够,特别是对于一些低频突变的检出率相对较低。而使用目标序列捕获技术不但节约了测序成本,还能确保较高的测序深度,达到最优化的配比,对于病毒基因组的研究具有重要意义。

以双链DNA捕获测序为例,其具体操作流程如图2所示:先将设计好的EBV基因组探针同基因组文库进行混合,EBV基因组序列被杂交到探针上,进而通过生物素和streptavidin的磁珠结合被吸附到磁珠上;经洗脱处理就能将非目标区域(非EBV基因组)的DNA片段洗掉,从而富集到客户需要的基因片段,具体流程如图2所示。

图2. EBV目标序列捕获测序流程

HKNPC2~9、以及其它71个EBV基因组使用RNA探针进行了捕获测序;EBVaGC系列则是通过双链DNA探针进行了捕获测序。

EBV基因组NGS测序结果的生物信息学分析方法

EBV基因组序列测定完成之后,需要对海量的测序数据进行系统有效的生物信息学分析,才能从中挖掘出与研究相关的有效信息。目前测序后的信息分析主要包括参考基因组比对(reference mapping)和重新组装(de novo assemble)两套方案。

1. 参考基因组比对和一致性分析(reference mapping)

参考基因组比对的生物信息分析方案主要是针对基因组序列已知的有机体或者同一物种不同亚型之间的变异分析。最常用的短序列比对方案是基于Burrow-Wheeler transform(BWT)运算发展而来的。BWT算法首先创建一个参考基因组的高效索引以确保在有限的系统存储中快速检索。以BWT运算为基础的软件包括很多,如BOWTIE、SOAP2以及EBV基因组测序分析中用到的BWA等。应用BWA只能在确定的“编辑距离”范围内与参考基因组序列对齐。这个所谓的“编辑距离”是指由一个序列转换成另一个序列所需的最少编辑操作次数,它受到测得序列与参考基因组序列的错误匹配或者未匹配上的空缺数目的影响。由于“编辑距离”的限制,超过该范畴的大片段插入序列无法进行检测。另外,多态性及错配多发区域(如EBNA-2、-3以及LMP-1、-2)的测序结果很有可能与参考基因组不同而使能与参考基因组比对上的有效一致性序列比例降低。重复区域同样易发生错配而导致在一致性序列上突变报告数增多。因此,在这些区域内要求进行更加有效的验证。

以比对后的数据为基础通过一致性分析来构建EBV基因组序列。每个位点上与参考基因组比对后占多数的核苷酸种类即一致性序列。而不一致的少数核苷酸种类则被认为是测序或者比对的错误结果,或者推断可能存在低比例的其他病毒亚型共侵染现象。

2. 从头组装(de novo assemble)

de novo测序是指无需参考基因组序列的辅助而对新的基因组进行测序的过程。因其不依赖于参考基因组序列,所以能更大程度的揭示基因突变以及与已知参考序列差异的显著性。进行高质量组装的先决条件包括高质量的碱基序列和高均一性的覆盖。此方法中,每条序列上的每个碱基在测序过程中都通过一种序列相似性(phred-like)的算法被赋予一个特定的质量分数,并粗略评估质量分数的均值。FastQC软件的各序列质量分数模块报告每条序列的平均质量分数的分布,并充当修正的基础。至少两种主要的方式来去除序列中低质量的碱基。一种方式是对所有序列碱基的质量分数进行汇总,修正的长度需综合考虑碱基质量和预期组装长度。另一种方式是针对每条序列的质量进行修正,不同修正后的序列长度取决于每条序列中可变碱基的质量。

大部分的基因组组装软件的运算都是利用预期的覆盖信息来推断基因组组装以及拷贝数变异的。因此,覆盖的均一度直接影响着重新装配的质量。例如,HKNPC1 EBV基因组两种方法(扩增子测序,目标序列捕获测序)测序后的分析(如图3所示)显示,扩增子法测序产生了更多片段化的重叠群,覆盖高度不均一,因此无法组装成为连续的序列。相反,目标区域捕获测序得到的重叠群更整齐,覆盖均一度更高,可有效组装。

图3. EBV扩增子法和目标序列捕获法测序后的重叠群均一性比较

EBV基因组测序技术的总结与展望

迄今为止,已有126种EBV基因组被成功测序。期间,测序技术与生物信息学分析内容都在不断优化与完善。技术层面上,由传统的鸟枪法测序到现在的目标区域捕获结合NGS测序技术,不仅有效提高了测序通量、缩短测序周期、节省了大量人力物力,而且很大程度上降低了测序成本及数据分析的复杂程度,更加适应EBV基因组大规模测序分析的需求。生物信息学分析层面上,不仅能进行病毒基因组上突变的分析(单碱基替换、碱基的插入/缺失、DNA片段缺失/重复等),还能对其进行分型检测以及进化分析,更重要的是可以对病毒基因组在宿主基因组上的整合位点进行分析,这对于EBV等致癌病毒引发宿主细胞癌变的机制研究具有重要意义。

随着测序技术的不断发展,EBV基因组的测序分析将会被更大程度的优化改良。例如,引入k-mer运算并结合de Bruijn graphs的生物信息学分析方式,可桥接因某些低深度序列造成的缺口,从而更有效的提高重叠群质量。由此可见,未来EBV基因组的测序能够为广大科研工作者提供更详尽可靠的信息,有效地推动EBV感染相关疾病的研究工作的展开。

参考文献

1. Liu Y, Pan Y, Lu Z et al. 2016. Genome-wide analysis of Epstein-Barr virus (EBV) isolated from EBV-associated gastric carcinoma (EBVaGC). Oncotarget. 2016 Jan 26;7(4):4903-14.

2. Kwok H., Chiang AL, 2016. From Conventional to Next Generation Sequencing of Epstein-Barr Virus Genomes. Viruses. 2016 Feb 24;8(3).pii:E60. 

3. Lin, Z.; Wang, X.; Strong, M.J.; Concha, M.; Baddoo, M.; Xu, G.; Baribault, C.; Fewell, C.; Hulme, W.; Hedges, D.; et al. Whole-genome sequencing of the Akata and Mutu Epstein-Barr virus strains. J. Virol. 2013, 87, 1172–1182.

4. Tsai, M.H.; Raykova, A.; Klinke, O.; Bernhardt, K.; Gartner, K.; Leung, C.S.; Geletneky, K.; Sertel, S.; Munz, C.; Feederle, R.; et al. Spontaneous lytic replication and epitheliotropism define an Epstein-Barr virus strain found in carcinomas. Cell Rep. 2013, 5, 458–470.

5. Delecluse, H.J.; Hilsendegen, T.; Pich, D.; Zeidler, R.; Hammerschmidt, W. Propagation and recovery of intact, infectious Epstein-Barr virus from prokaryotic to human cells. Proc. Natl. Acad. Sci. USA 1998, 95, 8245–8250.

(责任编辑:sgx)

常见问题
  • 如何在体龙基因完成所需的检测项目 流程简述 :在线咨询 - 采样送检 - 付款检测 - 检测分析 - 报告结果
查看详情

相关内容

官方客服团队

为您解决烦忧 - 24小时在线 专业服务