一、分析背景
蛋白一般由一个或多个功能域所组成,在不同蛋白质组合中出现的不同结构域导致了自然界中蛋白质复杂的多样性。鉴定一个蛋白中的结构域有助于更深入地理解蛋白功能。Pfam是一个大型蛋白结构域家族的数据库,每个蛋白家族都由多个序列比对和HMMs(hidden Markovmodels,隐马尔可夫模型)所体现。最新版本为27.0(2013年3月,包含14831个蛋白家族)
Pfam包括两个质量级别的家族数据库:Pfam-A和Pfam-B。Pfam-A来自基础序列数据库Pfamseq,是根据最新的UniProtKB数据建立的,质量较高。Pfam-B做为Pfam-A的补充,是一个未注释的低质量数据库,一般是由ADDA数据中的非冗余cluster自动生成的。虽然质量较低,但对于鉴定Pfam-A无法覆盖到的功能保守区域是非常有用的。
二、软件安装
1. HMMER3:,使用以下命令安装:
tarzxf hmmer-3.1b1.tar.gz
cdhmmer-3.1b1
./configure
make
makecheck
makeinstall
2. Perl语言的Moose包:使用cpanMoose命令安装,或到CPAN下载安装
3. 分析工具PfamScan,下载:,使用以下命令安装:
tarzxvf PfamScan.tar.gz
exportPATH=/path/to/install/hmmer3/bin:$PATH
exportPERL5LIB=/path/to/pfam_scanDir:$PERL5LIB
4. 对应的数据库下载:
需下载的数据库包括:Pfam-A.hmm, Pfam-A.hmm.dat,Pfam-B.hmm,Pfam-B.hmm.dat,active_site.dat。
通过hmmerspress来把下载的数据建库:
hmmpressPfam-A.hmm
hmmpressPfam-B.hmm
三、使用说明
./pfam_scan.pl -fasta <fasta_file> -dir <directorylocation of Pfam files>
例如在r910的/home/r910/works/linbo/PfamScan目录中:
./pfam_scan.pl -fasta cpc.fa -dir/home/r910/works/linbo/PfamScan -pfamB -as -outfile result.fa
参数说明:
-dir Pfam_data_file_dir
包含Pfam数据文件的目录[必须]
-fasta fasta_file
包含序列的输入文件名 [必须]
-outfile output_file
输出文件名 [不指定则输出在命令行中]
-e_seq
序列E-value阈值 [不指定则使用默认阈值]
-e_dom
结构域E-value阈值 [不指定则使用默认阈值]
-b_seq
序列bit score阈值 [不指定则使用默认阈值]
-b_dom
结构域bit score阈值[不指定则使用默认阈值]
-pfamB
搜索Pfam-B数据库HMMs [默认关闭]
-only_pfamB
只搜索Pfam-B数据库HMMs [默认关闭]
-clan_overlap
允许不同上级分类的序列重叠 [默认关闭]
-align
在结果中显示比对片段 [默认关闭]
-as
预测Pfam-A数据库匹配的active sites[默认关闭]
-json [pretty]
输出结果使用JSON格式。例如指定值为[pretty],则输出结果会使用"pretty" JSON格式输出 [默认关闭]
-cpu
并行工作的CPU数目 [默认全部]
-translate [mode]
将输入序列视为DNA,并在搜索前使用6框翻译的方法进行转换。如果翻译模式[mode]被指定,则必须为"all"或者"orf"。"all"表示完整翻译,包括终止子并且不产生单独的ORFs;"orf"表示只翻译和报告长度大于20的ORFs。如果使用了翻译参数而没有指定翻译模式,则默认使用"orf"模式。[默认关闭]
-h
显示帮助信息
四、结果格式
标准的输出格式为:
<seq id> <alignment start> <alignment
end><envelope start> <envelope end> <hmm acc>
<hmm name><type> <hmm start> <hmm end> <hmm
length> <bitscore> <E-value> <significance>
<clan><predicted_active_site_residues>
五、引用文献