这种方法采用强大的算法,以近乎完美的准确度识别可表达的基因……近年来遗传学迅猛发展,许多科学家们希望能借此找到一种清晰,快速的方法进行基因组序列扫描,区分各种可以表达的基因,和不能表达的基因的方法。基因表达是基因编码信息,用于产生关键产物(如蛋白质)的过程。然而令人惊讶的是,迄今为止这还只是一个希望。不过加州大学圣地亚哥分校的生物学家开发出第一个基于机器学习鉴别基因表达的系统。由于缺乏这种方法,新方法被认为是生物学家的一种遗传学“Rosetta Stone”(罗塞塔石碑,是一块制作于公元前196年的大理石石碑,由于这块石碑同时刻有同一段文字的三种不同语言版本,使得近代的考古学家得以有机会对照各语言版本的内容,生物通注)。这一研究成果公布在8月12日PNAS杂志上,由加州大学圣地亚哥分校生物科学系教授Steve Briggs领导完成,Briggs作为美国科学院院士,在分子生物学领域建树颇多,成果斐然。对于这项研究,他表示“这篇论文提出了区分是否可以表达的基因的第一种方法,这是所有生物学的基础。无论是药物发现还是植物育种或进化,都需要生物学的基础研究。”生物学家之前已经通过实验观察和科学文献参考将基因表达分类。但是基因组学领域缺乏一种形式化的过程来揭示这种信息,称为“可表达基因集”,即EGS(expressible gene set),它包含所有可能表达的蛋白质编码基因。“在生物学方面,没有办法做到这一点,”Briggs说,“过去我们只有制作目录的经验方法,还没有基于其分子特征对基因进行分类的科学标准。”这一新方法利用机器学习,通过算法和其他过程来分析数据,并基于包含特定的,详细的分子特征的近30,000个基因的数据集,对数据进行了高级算法训练,让它“学会”将基因表达分类,完成精确度高达99.4%。其中的关键是在于将染色质生物学和确定基因表达的分子特征结合在一起,前者有助于调节细胞内的DNA包装。将这些与数学机器学习相结合,确定物种范围的转录基因组,或称为“表达组”,然后创建可表达基因的图谱。而且这种方法也可用于理解沉默某些基因的进化机制。Briggs现在正在将这种方法应用于高粱,这是一种重要的食物和饲料谷物,他认为新方法就像一个单词解码器,“就像是Rosetta Stone”。“基因组序列就像一本书,这些词是基因。直到现在,我们还不知道哪些DNA序列是真正的单词,哪些只是组合词语。通过删除非单词的部分,我们现在可以更准确地阅读这本书。”
(责任编辑:tqh)
著名学者《PNAS》首次开创了解码基因表达的技术方法
480