对于在重症监护病房的新生婴儿来说,家族遗传性疾病是导致其死亡的主要原因,因此迅速诊断问题是至关重要的。现在,只需破纪录的 26 个小时,儿科医生就可以扫描及分析危重婴儿的整个基因组,这一成果在很大程度上要归功于以处理大数据的遗传学而设计的硬件系统。在最近发表在 Genome Medicine 的一项研究表明,分析的关键步骤的单位时间从 15 个小时减少到不足 40 分钟。
Dragen Bio-IT Processor,由总部设在加利福尼亚的 Edico Genome 公司研发,其 CEO Pieter van Rooyen 表示,「只要将其装在一个台式电脑那么大的服务器中就可以被无缝地集成到一个医院或研究机构的现有工作流上。」他表示,这种专业的附加装置提供了计算能力,否则就得需要建立昂贵的服务器群集或是被缓慢的连接到云上。
在一次全基因组检测中,测序仪器需要记录组成人 DNA 的 32 亿个「字母」的序列并找出大约 500 万种不同的变化,以表现出所检测人的唯一性。这种扫描成本的暴跌帮助医生发现它的很多新的用途,但是在这个使用过程中也引起一个新的难题。「遗传学将是有史以来存在的最大的大数据问题,」van Rooyen 说道。其他人也表示赞同:在 PLoS(美国科学公共图书馆)Biology 上的一项研究预测表明,在十年内基因数据的计算需求将超过其他所有的领域,包括天文研究和 YouTube。
从基因组扫描到诊断只需 26 个小时,在密苏里州堪萨斯城的儿童慈爱医院的研究人员展现了快速的基因分析是如何跟上临床需求的。对于每个危重婴儿,测序机器首先必须要做的是记录一个基因组的 32 亿个碱基对。通过使用黄金标准的 Illumina HiSeq 机器,操作人员将这一步的时间从 25 小时压缩至大约 18 到 21 小时。
2025 年 大数据来源
根据一项来自纽约伊利诺伊大学厄巴纳 – 香槟分校和冷泉港实验室的科学家的研究表明:到 2025 年,新的基因组学数据的存储需求将远远超过任何其他数据源。他们预测,在那一年,将会有 1 亿到 20 亿人完成基因组测序。
预计 2025 年 年度存储情况
首席研究员 Stephen Kingsmore,同时也是儿童慈爱医院儿科医生及儿童慈爱项目的基因组学专家。他表示,速度的「显著增加」源自于 Dragen,其能够确认每个生病婴儿的所有基因组的变化情况。研究人员通过使用内部软件,搜索出变异的基因并自动将其标记,然后按照婴儿的症状结合变异的基因找出相匹配的疾病。在之前的研究中,Kingsmore 的团队展示了诊断是如何基于基因组扫描并极大地改变治疗计划的:例如,基于一种罕见的遗传性疾病的准确诊断,一个肝功能衰竭的婴儿接受了适当的手术和药物治疗,现在,这个孩子已经 2 岁了并且非常的健康。
Dragen 系统检测速度的快速增长多亏了其硬件架构和专为基因组数据设计的软件,van Rooyen 说道。该系统的存储器基板配备了可重构的处理器芯片和 32 GB 的内存。测序仪器的原始数据流入 Dragen 的基板中,无需缓存就可以将数据分配给芯片的 4 个计算引擎。这些组件协同工作,将所测人的基因组的字母按照顺序排列,并与存储在专用内存板上的基因组相匹配。处理器以极快的 400 MB / S 的速度将数据通过管道进行约 140 次的操作。「一切立刻开始运作,」van Rooyen 说道。
排序的步骤完成后,处理器就会被完全重新配置来识别基因组的变化。整个过程只需要 20 秒就可以完成。这些变异的基因就会被识别,数据将它们扫描下来并压缩,再发送回服务器。根据 Edico 公司的估计,当大多数的操作发生在 Dragen 基板上时,整个系统将使用很少的服务器内存,同时也不会加重 CPU 的负担。
虽然 Dragen 的统计数据令人印象深刻,但并不是所有人都相信这个插入式处理器能够提供独一无二的好处。其中一个怀疑者是 Michael Schatz,他是纽约冷泉港实验室的定量生物学副教授,他合写了有关『基因组学、天文学、YouTube 的数据对比』的论文。他认为,专用处理器将用户锁定在特定的数据格式和分析方法中。「虽然他们在某些方面很擅长,」他说道,「但是数据在不断的变化,方法也在不断的提高。」Schatz 认为医生和研究人员对于大数据基因组学的研究将更有利于对通用计算机集群的投资,通过使用该计算机集群,「可以很容易地从一个应用程序到下一个或从一个数据类型到下一个。」
不管怎样,医生们都需要开始使用这种方法。Van Rooyen 预测,在接下来的几年里,出生在发达国家的每个婴儿都将会在医院里存有他或她的基因组测序。「对我们来说,这只是个时间问题,临床基因组学将会无处不在的在我们身边,」他说道。「安全谨慎的基础设施已经准备好了。」他设想,有一天,Dragen 的处理器在分析数据后就可以直接将其信息输入到病人的电子医疗记录中,并为医生标记出可使用的有用信息。
如果我们想利用当今最好的基因技术,那么从基因组测序诊断来看,自动化医学进展到这种程度,将是必要的,儿科医生 Kingsmore 说道。「如果我们要大规模的使用它,那么必须要有智能的机器来做支持。
(责任编辑:xgh)