研究某个基因常需其序列和启动子信息。目前多数已测序物种的数据易于获取。以拟南芥为例,可通过NCBI数据库便捷地检索目标基因的完整序列及相关调控区域。
1、 访问NCBI官方网站
2、 在搜索框中输入gene,接着填入目标基因编号,例如at1g11110,点击search即可开始查询。
3、 在搜索结果中定位MapViewer,可查看基因在染色体上的具体位置。
4、 接下来可查看该基因的具体位置及相关信息,无需关注其他内容,直接点击右上角的Download/View Sequence/Evidence,进入后即可下载所需序列。
5、 可查看FASTA和GenBank两种格式的序列,建议优先选择GenBank格式,因其包含详细的注释信息,能清晰分辨基因、启动子、CDS等结构。FASTA格式仅显示原始序列,缺乏标注。点击display即可查看相应内容。
6、 从图中可以看出,该基因的序列区间为288至2583,其mRNA对应的区域包括多个片段:288到355、444到467、653到935、1032到1135、1253到1375、1641到1803以及2052到2583。而编码序列(CDS)则分布在444到467、653到935、1032到1135、1253到1375、1641到1803以及2052到2188这几个区段内。由于基因结构中外显子并非连续排列,中间被多个内含子隔开,导致其转录后的mRNA需要经过剪接处理,最终形成的成熟mRNA中仅保留外显子部分。因此,编码蛋白质的CDS也呈现出不连续的特点,分散在不同的外显子区域内,反映了真核生物基因典型的断裂结构特征。
7、 基因上游序列即为其启动子区域,启动子长度因基因而异,可根据实际需求灵活选择。若上游序列长度不足,可通过调整界面右上角的碱基显示范围,扩展序列长度以满足分析需要。
8、 愿为有需要者提供帮助。
