基因功能的富集分析已成为高通量组学数据分析的常规手段,对于揭示生物医学分子机制具有重要意义。目前已有上百种基因功能富集分析的方法和工具。根据所解决的问题和算法的原理,这些方法可大体分为过代表分析、功能集打分、基于通路拓扑结构和基于网络拓扑结构4大类。
来自复旦大学生命科学学院等处的几位学者对这4大类方法的原理及其中的典型方法进行了综述,并讨论了基因功能富集分析结果的冗余性问题及建立标准数据集的必要性。
随着高通量测序技术的飞速发展及相关技术的广泛应用,生物医学相关研究领域已进入了大规模组学数据呈指数增长的后基因组时代,一方面,这使得生物医学研究得以从单个基因的分析转变为系统水平上的研究,对于揭示生物医学的基本分子机制具有重要推动作用。但另一方面,如此庞大的数据量也给信息的有效提取和分析带来了巨大的挑战。
为了从庞杂的组学数据中发掘规律,研究者通常会对基因功能进行富集分析,期望发现在生物学过程中起关键作用的生物通路,从而揭示和理解生物学过程的基本分子机制。现在,基因功能的富集分析已成为功能组学数据分析的常规手段,并随着高通量组学数据的发展,如从基因芯片数据到RNA-seq数据的转变,开发出了一系列相应的分析方法,最早开发的过代表分析(over-representation analysis,ORA)仅针对一组基因,而高通量组学数据的发展使得功能集打分(functional class scoring,FCS)应运而生,随着对于生物学通路及复杂网络的深入完善和了解,又相继开发了基于通路拓扑结构(pathway topology,PT)和基于网络拓扑结构(network topology,NT)的方法。
这篇文章对现有的基因功能富集分析方法进行简要的总结评述,以方便研究者了解相关领域,并选择适合的研究工具。
作者指出,高通量实验手段的广泛应用可以得到全基因组范围内的各种组学数据,通过统计分析方法,根据基因所参与的生物通路的功能注释信息,发现其中显著富集的生物学功能可从数据中揭示生物学分子机制问题,从而服务于基础生物医学研究、应用临床医学、药物开发及个性化精准医疗等方面。本文对基因功能富集分析方法进行了分类评述。需要注意的是,任何方法都没有绝对的“好坏”之分,每个方法都有自己的优点和一定适用范围,研究者应在对富集分析方法有一定了解的基础上,根据研究目的和需求,选择最为合理的方法。此外,本文还探讨了功能富集分析结果的冗余性问题及建立标准数据集的必要性。
参考文献:
王潇, 尹天舒, 李柏逸, 等. 基因功能富集分析的研究进展. 中国科学: 生命科学, 2016, 46: 363–373
Wang X,Yin T S,Li B Y, et al. Progress in gene functional enrichment analysis. Sci Sin Vitae,2016,46:363–373,doi:10.1360/N052016-00139
(责任编辑:wzx)