我们知道,大多数真核生物的基因都是不连续的,即基因的编码序列在DNA分子上是不连续的,被非编码序列隔开。但真核生物基因在无转录因子时处于不表达状态,因为RNA聚合酶自身无法启动基因的转录,只有当转录因子(transcriptionfactor, TF, 一种蛋白质)结合到其识别的DNA序列上后,基因才开始表达。首先我们要看,啥是转录因子呢?
转录因子就是能结合在基因的启动子区域,可以启动基因表达,或者操纵基因表达,或者,应该有的可能会堵在前面阻碍基因表达的。
当然,在序列上转录因子不光会结合启动子区,还会结合在Enhancer,也就是促进子之类的元件上。
说简单点,就是转录因子,就是一种能结合在DNA上的蛋白。
于是就产生了这样的技术,用抗体固定在大珠子上,然后把转录因子的蛋白质沉淀下来。沉淀的过程中,把染色质的DNA消化成片段,这样就能顺带着转录因子,把它结合的DNA序列拉下来了,这个就是ChIP,染色质免疫共沉淀。
而这里就涉及到另外一个概念,即转录因子结合位点(transcription factor binding site, TFBS), 它是转录因子调控基因表达时,与DNA上一段特殊的核苷酸序列相结合的区域,这段区域就称为启动子(Promoters),位于基因的调控区。
那么好了,这些和CHIP又有什么关系呢?
CHIP 是目前唯一一项可以研究体内蛋白质与基因相互作用关系的技术,记住,是基于体内分析的啊!
这也是为什么做CHIP分析出来的结果更为可信,因为它能更加真实完整地反映结合在DNA序列上的调控蛋白,是目前确定与特定蛋白结合的基因组区域或确定与特定基因组区域结合的蛋白质的最好方法。而EMSA(凝胶电泳迁移率改变分析), 也是目前研究转录调控蛋白和相应核苷酸序列结合的方法,就是基于体外分析来获取结果的。
ChIP这个过程分两步走:
1)寻找目标基因的启动子区域 2)预测转录因子结合位点 这里我们举个NF-kB的例子,这是个已知的哺乳动物的转录因子家族,预测人类基因ANKH上游2000bp启动子区域中NF-kB的结合位点。ANKH表达的是一个多通路跨膜蛋白,目前研究其与易感性关节炎相关。那为什么要定义为2000bp这个长度呢? 其实在基因的转录起始位点的上游,到底多少个碱基长度为启动子区域,我们并不知晓。只能说,我们并不知道人家家住在哪,就想去做客了。。。所以在TF binding site的研究中,我们一般选上游2000-3000bp的长度为启动子。
这里介绍两种寻找启动子的方法:UCSC 和Ensembl。当然,NCBI也是可以的,而且同一基因区域都是相同的。
选择Genomes, 在clade选择Mammal, genome 选择 Human, assembly 选择最新的数据库,gene 中输入ANKH,点击Tables。在track中选择RefSeq Genes,在output format中选择sequence, 点击get output。
选择Promoter/Upstream by 2000 bases, Exon in upper case, everythingelse in lower case, 即外显子大写,其他小写。
选择Human, 输入 ANKH,选择 gene, 点击Gene IDENSG00000154122,点击左边的Export data 。
5’ Flanking sequence upstream 输入2000或3000,Options for FASTA sequence 中 Genomic 选 5’ Flankingsequence, 点击next,即得到2000bp的核苷酸序列。
|