生物信息学操作指导步骤 下载本文

内容发布更新时间 : 2024/12/23 23:56:10星期一 下面是文章的全部内容请认真阅读。

1. FASTA序列查询及含义

登录NCBI官方网站(http://www.ncbi.nlm.nih.gov/) [National Center for Biotechnology Information]

用NCBI查找到你所需要的序列(核酸、蛋白质),如下图所示

图中有你所搜索的基因的名称、来源物种、长度、发现方式、发现年份、编号和描述

点击FASTA,得到FASTA序列

FASTA格式是指序列文件的第一行是由大于符号打头,之后跟随文字说明,第二行是序列本身,使用标准的核苷酸或蛋白质单字母符号,每行通常为60个字符(不超过80个字符)。 对于核酸序列,除了为大家所熟知的A、G、C、T、U外,R代表C或A(嘌呤);Y代表T或C(嘧啶);K代表G或T(带酮基);M代表A或C(带氨基);S代表G或C(强);W代表A或T(弱)B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代表A、G、C、T中任意一种。

2. 编码的氨基酸序列

在核酸序列界面的右下角有Protein选项,点击后即可进入氨基酸序列

得到的序列依然是使用FASTA格式的。

3. 蛋白质功能域

在蛋白质FASTA格式界面点击RUN BLAST,相当于BlASTp,能与蛋白质数据库进行比对,得到其功能域结果