生物信息学预测哺乳动物转录调控作用位点

转录调控是分子生物学中的一个基本问题, 而确定转录因子与靶基因间的调控关系以及转录因子在靶基因上的结合位点是理解转录调控机制的核心问题。

转录因子结合位点(Transcription factor binding site,TFBS)是与转录因子结合的DNA片断,长度通常在5~20 bp范围内,一个转录因子往往同时调控若干个基因,而它在不同基因上的结合位点具有一定的保守性,又不完全相同。较短的dna片段在规模较大基因组中重复出现的次数很多,另外TFBS又允许一定的可变性, 这给识别TFBS的工作带来了困难,使得预测TFBS的算法普遍存在假阳性率偏高的问题。

在UCSC GENEnome Browser 数据库里面Regulation调控卡ENCODE TBBS 里面有1000多套转录因子的数据。基本可以满足医学科研的需求。

基因转录调控是一个非常复杂的网络体系, 在in vitro和in vivo的实验可能有不同的结果, 而生物细胞生理状态以及环境因素的不同也可能导致不同的实验结果。只有通过各种数据的融合和相互校正, 才能挖掘出可靠的转录调控关系和TFBS。比如说, 将基因表达数据和序列数据进行融合分析, 既保证TF与该基因的调控序列有相互结合,

又保证该TF对该基因的表达有影响, 从而能够确信二者之间的调控关系。有效的利用生物信息学工具分析实验结果, 从而产生出可以验证的生物学假设, 会使TFBS的预测及鉴定更加准确和高效。

TFBS的生物信息学领域有以下几个方面可以进行深入研究:

(1)根据已知的TFBS模型,在基因组中预测TFBS的各种算法普遍存在假阳性率偏高的问题,降低预测中的假阳性是今后研究的重要目标。引起假阳性的一个主要原因是,基因组中存在很多与TFBS序列相同但没有转录因子结合功能的短串。随着人们对转录调控过程的了解的深入,可以考虑增加新的信息,比如将染色体结构信息,即核小体在基因组中的分布情况,或TFBS与转录起始位点之间距离的分布特征,以此作为先验信息,提高TFBS预测的准确率。另外,转录调控通常需要多个转录因子的合作,它们的TFBS之间距离较近,组成相应的“顺式调控模块”(Cis-Regulatory Module,CRM),有CRM的区域比只有单个TFBS的区域更有可能是真正的转录调控区域。因此,预测CRM从而推断TFBS的分布,也能大大提高TFBS预测的准确率。

(2)目前的TFBS研究多为从DNA中提取信息、构造模型、设计算法,而忽略了转录因子本身能提供的信息,可以尝试将具有相同DNA结合域的转录因子家族作为一个整体进行研究。

(3)目前已有一些工作考虑转录因子与TFBS结合能的高低对下游基因转录的mRNA表达量的定量关系,而目前对TFBS模型的评介标准主要是“能否准确判别某DNA序列是否为TFBS”,对于模型能否准确描述转录因子与TFBS结合强度的定量关系缺乏评价,此类定量模型也有待开发。近年来,一些研究发现TFBS的丢失和获得在转录调控网络的进化中起重要作用,TFBS在调控网络进化中的作用机制还有待进一步揭示。我们相信实验技术的进步以及对转录调控机制的深入理解必将为TFBS的生物信息学研究注入新的生命力,生物信息学与实验相互结合相互促进,人们对转录调控的认识将更加系统深入。

(责任编辑:fangqi)

常见问题
  • 如何在体龙基因完成所需的检测项目 流程简述 :在线咨询 - 采样送检 - 付款检测 - 检测分析 - 报告结果
查看详情

相关内容

官方客服团队

为您解决烦忧 - 24小时在线 专业服务