蛋白编码能力预测软件pfam流程

2022-9-30 萌小白

一、分析背景

蛋白一般由一个或多个功能域所组成，在不同蛋白质组合中出现的不同结构域导致了自然界中蛋白质复杂的多样性。鉴定一个蛋白中的结构域有助于更深入地理解蛋白功能。Pfam是一个大型蛋白结构域家族的数据库，每个蛋白家族都由多个序列比对和HMMs（hidden Markovmodels，隐马尔可夫模型）所体现。最新版本为27.0（2013年3月，包含14831个蛋白家族）

Pfam包括两个质量级别的家族数据库：Pfam-A和Pfam-B。Pfam-A来自基础序列数据库Pfamseq，是根据最新的UniProtKB数据建立的，质量较高。Pfam-B做为Pfam-A的补充，是一个未注释的低质量数据库，一般是由ADDA数据中的非冗余cluster自动生成的。虽然质量较低，但对于鉴定Pfam-A无法覆盖到的功能保守区域是非常有用的。

二、软件安装

1. HMMER3：，使用以下命令安装：

tarzxf hmmer-3.1b1.tar.gz

cdhmmer-3.1b1

./configure

make

makecheck

makeinstall

2. Perl语言的Moose包：使用cpanMoose命令安装，或到CPAN下载安装

3. 分析工具PfamScan，下载：，使用以下命令安装：

tarzxvf PfamScan.tar.gz

exportPATH=/path/to/install/hmmer3/bin:$PATH

exportPERL5LIB=/path/to/pfam_scanDir:$PERL5LIB

4. 对应的数据库下载：

需下载的数据库包括：Pfam-A.hmm， Pfam-A.hmm.dat，Pfam-B.hmm，Pfam-B.hmm.dat，active_site.dat。

通过hmmerspress来把下载的数据建库：

hmmpressPfam-A.hmm

hmmpressPfam-B.hmm

三、使用说明

./pfam_scan.pl -fasta <fasta_file> -dir <directorylocation of Pfam files>

例如在r910的/home/r910/works/linbo/PfamScan目录中：

./pfam_scan.pl -fasta cpc.fa -dir/home/r910/works/linbo/PfamScan -pfamB -as -outfile result.fa

参数说明:

-dir Pfam_data_file_dir

包含Pfam数据文件的目录[必须]

-fasta fasta_file

包含序列的输入文件名 [必须]

-outfile output_file

输出文件名 [不指定则输出在命令行中]

-e_seq

序列E-value阈值 [不指定则使用默认阈值]

-e_dom

结构域E-value阈值 [不指定则使用默认阈值]

-b_seq

序列bit score阈值 [不指定则使用默认阈值]

-b_dom

结构域bit score阈值[不指定则使用默认阈值]

-pfamB

搜索Pfam-B数据库HMMs [默认关闭]

-only_pfamB

只搜索Pfam-B数据库HMMs [默认关闭]

-clan_overlap

允许不同上级分类的序列重叠 [默认关闭]

-align

在结果中显示比对片段 [默认关闭]

-as

预测Pfam-A数据库匹配的active sites[默认关闭]

-json [pretty]

输出结果使用JSON格式。例如指定值为[pretty]，则输出结果会使用"pretty" JSON格式输出 [默认关闭]

-cpu

并行工作的CPU数目 [默认全部]

-translate [mode]

将输入序列视为DNA，并在搜索前使用6框翻译的方法进行转换。如果翻译模式[mode]被指定，则必须为"all"或者"orf"。"all"表示完整翻译，包括终止子并且不产生单独的ORFs；"orf"表示只翻译和报告长度大于20的ORFs。如果使用了翻译参数而没有指定翻译模式，则默认使用"orf"模式。[默认关闭]

-h

显示帮助信息

四、结果格式

标准的输出格式为：

五、引用文献

R.D. Finn, A. Bateman, J. Clements, P.Coggill, R.Y. Eberhardt,
S.R. Eddy, A. Heger, K. Hetherington, L. Holm, J.Mistry, E.L.L.
Sonnhammer, J. Tate, M. Punta. The Pfam protein familiesdatabase.
Nucleic Acids Research(2014) Database Issue 42:D222-D230

发表评论：