由来自麻省理工学院和哈佛大学Broad研究所、哈佛大学、Dana-Farber/波士顿儿童癌症与血液疾病中心的科学家们完成的这项研究,以两篇文章形式发表在6月2日的《细胞》(Cell)杂志上,其利用了一种叫做“大规模并行报告基因检测”(massively parallel reporter assay)的实验技术。这一技术使得研究人员能够探测成千上万的DNA变异,以鉴别出影响基因调控——基因如何开启和关闭的遗传变异。
遗传学家面临的一个问题是有过多的候选致病变异。在过去的十年里,利用一种叫做全基因关联研究(GWAS)的方法,全世界的研究人员鉴别出了与广泛疾病风险和其他一些重要身体性状相关的许多人类DNA片段。然而,由于每个区域可以包含成百上千的遗传变异,很难分辨出哪一区域真正使得人们有更大的可能患病。
其中一篇Cell论文的资深作者、Broad研究所准成员、Dana-Farber/波士顿儿童癌症与血液疾病中心的Vijay Sankaran说:“采用GWAS,你会得到一组信号,告诉你基因组哪些区域与一种特定疾病或性状有关联。但却很难知道哪些是因果击中点(hits),哪些只是凑热闹的。”
当谈及非编码DNA中的变异,尤其是包含基因表达控制序列的大DNA片段时,图像变得尤为复杂。据估计,大约85-90%GWAS获得的变异存在于这样的区域中。因此,科学家们正在寻找一些方法来连接非编码GWAS变异、人类生物学及最终人类疾病之间的点。
第二篇Cell论文的资深作者、Broad研究所成员、哈佛计算遗传学家和进化生物学家Pardis Sabeti说:“我们想从认识基因组元件片段转向了解这些元件发生的改变做了些什么。我们需要非常敏感的技术能够鉴别出这些功能改变,尤其是如果它们是微细的。”
变成大规模
数十年来作为基因组学工具箱的一个重要组成部分,报告基因检测帮助科学家们筛查GWAS数据找到了一些真正影响基因表达或功能的变异。一位研究人员从增强子那里取得一个DNA片段,在一个质粒内将它与提供读取值(readout)的一个“报告”基因(如荧光素酶基因)连接到一起,将这一质粒插入到细胞中。如果读取值形象化(例如,如果细胞发光),这一增强子序列驱动了报告基因表达。通过采用同一片段的不同变体进行这样的分析,就会出现一种模式表明某些变异影响了表达。
但这样的检测方法有一个主要的缺点:它们无法扩展至调查GWAS中发现的成千上万到数万变异所需的水平。
在2012年的一篇Nature Biotechnology论文中,Broad研究所的Tarjei Mikkelsen和Alexandre Melnikov指出,给每个质粒标记一个短的、独特的DNA条形码可提供第二个读取值。通过测序和计算每个质粒生成的mRNAs,他们可以很容易地辨别出对基因表达有最大影响的变异,并定量影响的量级。
由于每个质粒都有一个独特的条形码,Mikkelsen和Melnikov的研究小组可以同时检测成千上万的变异。
追踪血细胞性状
Sankaran实验室利用Mikkelsen和Melnikov的MPRA系统细查了与红细胞性状相关联的75个GWAS击中点中的2,750多个非编码变异。Sankaran、共同第一作者Jacob Ulirsch和Satish Nandakumar在他们的Cell论文中报告称,MPRA数据揭示了32个真正影响基因表达的击中点。利用其他的计算和功能检测进一步探查其中一部分变异对红细胞性状的影响,该研究小组发现几个已知的基因在红细胞发育中发挥了以往未发现的作用。
Ulirsch说:“我们的一个意外收获是,发现许多变异调整了一个主要的血液发育调控因子GATA1。这是一种常见模式。一个一个变异筛查,我们永久都无法看到这种模式。”
构建MPRA 2.0
尽管Mikkelsen和Melnikov的原始方法相当强大,Sabeti实验室想看看他们能否让它变得更强大。
第二篇Cell论文的第一作者、Sabeti实验室博士后Ryan Tewhey说:“原始版本的MPRA限制了你可以测试的变异数量。我们想知道是否能扩展这一技术?是否可以同时测试数万的变异?是否能让它更敏感?”
Tewhey、Sabeti和研究小组将每个DNA条形码的长度增加了一倍,将条形码的数量提高至350个/每个变异。随后他们利用增强版检测方法研究了千人基因组计划鉴别出的32,000多个可能的B细胞调控变异,深入确定了与自身免疫疾病强直性脊柱炎风险相关的一种变异的特征。他们还阐明了另外的842个候选变异,包括53个尤其有前景的,与一些人类性状和疾病相关的变异。
如他们在Cell论文中讨论的,添加条形码减少了他们数据中的噪音,提高了检测的整体敏感度。
“利用更多的条形码,你可以开始检测出更细微的表达改变,包括可能是等位基因之间的差异导致的改变,Tewhey说。
对于调控的另一种看法
MPRA不是在GWAS的大海中捞针的唯一方法,Tewhey认为它不是研究所有细胞表达调控机制的万能方法。
“对于启动子和增强子,我们知道它可以很好地起作用,对于与长距离连接或基因组形状相关的事情,我们没有那么自信,”Tewhey说。
参考文献:
1、Ulirsch JC, Nandakumar SK, et al. Systematic functional dissection of common genetic variation affecting red blood cell traits. Cell. June 2, 2016. DOI: 10:1016/j.cell.2016.
2、Tewhey R, Kotliar D, et al. Direct identification of hundreds of expression-modulating variants using a multiplexed reporter assay. Cell. June 2, 2016. DOI: 10:1016/j.cell.2016.
3、Melnikov A, Murugan A, et al. Systematic dissection and optimization of inducible enhancers in human cells using a massively parallel reporter assay. Nature Biotechnology. February 26, 2012. DOI:10.1038/nbt.2137
(责任编辑:sgx)