从个体到群体的数据循环,看为朔如何构建精准医疗知识库

构建精准医疗知识库的必要性

    这些年得益于测序技术,特别是二代高通量测序技术的发展,传统医学快速地发展到精准医学,这使我们普通人群快速便宜地获取自身基因组学信息成为可能。

    然而,不管是一代Sanger测序、二代高通量测序,还是PCR、生物芯片、免疫组化等常规分子水平检测,都只能告诉我们受检对象组学上的一些变异信息,而不能直接告诉我们根据这些信息临床上该如何决策。

    组学变异与临床表型、治疗效果的关联关系不是一个个体样本可以确定的,而是需要大样本的群体研究来证实,也就是说需要循证依据。所以,构建基于客观循证依据的组学变异、临床信息关联知识库成为实现精准医疗临床应用的必然之路。

    最近FDA、CSCO纷纷推出指南,明确指出需要通过循证的遗传变异知识库对测序分析结果进行临床注释解读来出具报告。譬如FDA指出,在评估基于NGS的检测时,所应用的知识库必须整合多层次科学证据,并有相应的权重;数据的选择和录入必须有详细明确的标准操作程序并严格按其操作。

    早在2011年,为朔的创立者就前瞻性地看到了这一需求和必然趋势,启动构建基于循证文献的精准医学知识库iCMDB。

    精准医学知识库的信息来源可分为三类:第一类是公共的组学数据库,如NCBI、Ensembl、dbSNP、OMIM、PharmGKB、ClinVar、COSMIC等,我们可以从中提取变异的组学属性;第二类是FDA、CFDA、EMA、Drugbank、Clinical Trial、NCCN指南、ASCO、ESMO等诊疗数据库,可从中提取临床诊疗方案;第三类则是从公众文献库如Pubmed中获取的海量文献。这些文本文献中的研究提供了关联临床表型、组学变异与诊疗效果这三方面的关系证据。iCMDB在从这些文献中结构化提取信息时,会针对每一项研究提供的证据,提取其研究设计方案、研究对象、样本量大小等数据,给出详细的循证等级和权重,并经多重人工审核,尽可能提供准确客观的依据。因此iCMDB已在新加坡获得三类医疗器械资质,CFDA、FDA也已在同步报批中。(附,最新消息,iCMDB已作为美国西奈山医院得精准医学整体流程的一部分通过了FDA CAP认证)

构建知识库的难点

    构建知识库的最大难点在于如何整合不同来源、不同层次、不同结构的多维数据和信息。

▍匹配不同的系统来源的数据

    临床纬度的信息,第一要素是疾病病种。而关于疾病命名及分类的系统有WHO的ICD系、OMIM、NLM的MeSH、SNOMED CT、MedGene等多个不同的系统。这些不同的系统对疾病的命名与分级并不完全一致,在整合采用不同系统的数据库时就必须做数据匹配。

▍规范各变异层次的元数据

    组学方面,其层次纬度也很多,有基因组学、转录组学、蛋白质组学、代谢组学、表观遗传组学等。仅仅在基因组学上就有单核苷酸变异、插入、缺失、替换、重复、拷贝数变化、转座、染色体微变化、核型等多种不同层次变异。不同层次的变异的数据特征差异很大,需要制定好各变异层次的元数据规范,进行有效的数据整合对接。

▍统一标准化组学数据

    这些年来,分子生物和遗传学界为统一标准化组学数据做出了很多努力。比如HGNC对人类基因,包括蛋白编码基因、非编码RNA、假基因等都做了统一的命名;HGVS对基因组、转录组和蛋白质组学水平变异的表述格式做了统一的规定。令人遗憾的是,目前这些标准并没有被广泛应用。

    举个小例子说明,对位于同聚序列内的插入或缺失,HGVS规定在变异结果相同的情况下,变异位置应注释在转录本的3’端;如果基因位于正链,变异位置发生在参考序列(正链)最右端。相反如果基因位于负链,变异位置则发生在参考序列(正链)最左端。但目前市场上的变异识别软件并不区分正负链,而是将变异位置统一注释在参考序列(正链)的最左端;即便像COSMIC、ClinVar这样被大家广泛应用的公众数据库在这方面也没有做到统一。COSMIC录入的变异大多不区分正负链,统一注释在最左端;ClinVar则大多注释在最右端。如果不对这些不同的格式进行统一转化,可想而知会影响下游注释的准确性和全面性。

▍精准医学知识库的核心是对组学变异与临床信息关联关系的注释。

    以为朔的iCMDB为例,我们把这些注释分为六个类别,包括易感、诊断、治疗、预后、和药物基因组学的药物代谢和药效动力类别。每一个注释要有详实的循证文献证据。

    以易感类注释为例,可能不少人都知道著名的易感基因BRCA1,BRCA2,它们是癌症相关基因,其正常表达能抑制恶性肿瘤发生。iCMDB中收录了这两个基因中三千多个被ACMG划分为有害、可能有害、不确定等等级的位点,以及剩下的七千多个被归类为可能良性、良性等级的位点。

    每个位点不仅给出对蛋白功能影响的分子机制注释,还会给出详尽的临床注释,包括研究设计信息、研究人种信息、样本量大小、Odd Ration等详尽信息。治疗类注释的临床注释也是同样,不仅有研究设计的循证等级、样本量、研究人种信息,还包括了总生存期、无进展生存期等准确的治疗效果数字信息。

    药物基因组学注释则从药物代谢速度、不良副作用、药效等三个层次进行注释。

精准医疗数据分析平台搭建 - 从群体研究到个体应用

    有了基于群体研究证据的精准医学知识库,才有了搭建精准医学数据分析注释平台、进行个体化临床应用的基础。一个完善的精准医学数据分析注释平台需要具备四个要素:

● 需要有对接医院HIS、EMRS系统的病人基本信息、病理信息、随访数据等信息的录入和安全管理平台;

● 数据分析注释平台必须能够兼容多种检测技术和数据格式。也就是说,不仅要兼容不同的二代高通量测序数据,也要兼容Sanger测序、qPCR、FISH、IHC等传统的“金标准”检测技术。

● 整合的分析流程必须做到量体裁衣,因病而异。不同疾病、不同注释目的所需分析流程也会不同。如恶性肿瘤的风险预测是识别生殖系变异,肿瘤的靶向治疗则检测体细胞突变;但如果是肿瘤的化疗药物药物基因组学注释,则又是检测生殖系变异。同样是检测肿瘤体细胞突变,从肿瘤新鲜组织、甲醛固定石蜡包埋块、血液ctDNA等不同来源提取的DNA特征也不同。因此,根据不同的病种、不同检测目的、不同检测手段,要自动化选择适用的分析注释流程、自动化出具报告。

● 需采用针对肿瘤组织特征、不同变异类型特征的算法软件进行分析。以癌症的测序数据分析为例,癌症类型多样,与其相关的突变多为体细胞突变,其样本DNA质量低,常含有大量健康组织污染,肿瘤具有异质性,突变类型多样等特征。因此分析流程在质量控制、比对、变异识别等步骤所采用的算法软件都必须是有针对性的。比如,近期我们做美国西奈山医院的一批非小细胞肺癌Ion Torrent测序数据分析时,检测出了一些特殊的较高频率的复合型插入缺失,并得到了验证,这些变异用常规的分析流程是测不出来的。

    随着数据的积累,特别是二代测序大数据的积累,分析注释平台也必须具备大数据搜索、储存、和分库管理能力,才能实现高效的临床应用。

从个体到群体数据深度挖掘 - 推动精准医学发展

    随着个体化应用平台上大量个体样本的累积,我们可以对这些数据进一步统计分析、挖掘发现新知识、丰富扩展精准医学知识库。这就是我们目前推崇的一个理念,即“从群体研究到个体应用,再从个体到群体数据深度挖掘”。由此形成一个良性循环,推动精准医学进一步发展。

    比如,iCMDB的个体化数据分析注释平台已累计了大量的非小细胞肺癌的数据。近期,我们对这些数据进行了进一步挖掘,在平衡了各种关联因素后,发现了一些新的有意义的变异,归纳了中国人的非小细胞肺癌变异图谱,为进一步提高个体化临床应用的精度提供了新的可能。

    总体来说,对非小细胞肺癌其分子机制的研究已比较深入,也已经有多种靶向疗法被开发出来。iCMDB里就收录了非小细胞肺癌381条循证临床注释,64个治疗方案。但还有很多疾病,由于缺乏特异、灵敏的生物标志物,导致早期预测、诊断手段匮乏。同时,其现有的治疗措施疗效有限、病程长死亡率高。针对这类情况,为朔已跟广州呼吸疾病研究所达成合作,通过我们的分析平台,对慢阻肺的样本进行分析和深度数据挖掘,寻找与COPD精准预测、早期诊断、分类分型及预后判断相关的组学特征谱,建立自动化分析注释软件系统,实现更为精确和精细的疾病分类、分型,提高其诊断、治疗精度。
(责任编辑:xgh)

常见问题
  • 如何在体龙基因完成所需的检测项目 流程简述 :在线咨询 - 采样送检 - 付款检测 - 检测分析 - 报告结果
查看详情

相关内容

官方客服团队

为您解决烦忧 - 24小时在线 专业服务