“我的数据上传NCBI又报错了...” “攻略拿去!”
卖萌控的博客
点击这里进入电脑版页面!体验更好
“我的数据上传NCBI又报错了...” “攻略拿去!”
2020-10-25 萌小白


上一期的内容 中,我们分享了NCBI测序数据上传的主要步骤和资料填写的注意事项。今天跟大家分享最后一步:原始测序数据的上传以及上传后项目编号的相关类型和含义。






图1 NCBI测序数据上传步骤



原始测序数据上传



完成样本属性和样本测序建库相关信息的填写后,下一步(第7步)即为测序数据上传。当然,如果测序数据量比较大,也可以在申请账号后就开始数据预上传,然后在第7步选择对应文档就可以。预上传和第7步的上传方法一样(图2、图3)。



预上传界面:



登录后 → my submissions → Options to preload data。






图2 预上传界面






图3 第7步上传界面



Aspera和FTP都是远程传递大数据量的软件。通过软件将本地地址与远程地址相连,进行文件的高速传输。



我们以Aspera浏览器、Aspera命令行、FTP 3种形式为例介绍三种上传方法,Aspera命令行看起来是代码形式,比较复杂,但其实命令很简单,上传非常快而且稳定,大文件推荐使用Aspera命令行模式。



软件安装



1. Aspera软件安装



下载地址:



https://downloads.asperasoft.com/connect2/



Tips:选择“典型安装”模式,避免无法自动弹窗显示。



2. FTP 安装



下载地址:



https://filezilla-project.org/download.php?type=client



方法一Aspera浏览器



安装成功后,进入 “步骤7”,出现弹框,询问是否启用IBM Aspera,选择“打开”(图4);选择第一项,点击“选择文件”,弹框后,选择“允许”,选择对应文档,即进入上传界面(图5)。






图4 启用Aspera






图5 Aspera浏览器上传



Tips:如果将不同样本的序列文件压缩成一个文档,选择continue会出现warning(图6),提示找不到第6步meta data表格中的文档名,再次点击continue,NCBI会自动解压并核对文档。






图6 如有多个序列文件压缩,会提示warning界面



Tips:此步上传的序列文档名需要与metadata表格填写的filename完全一致,且文档数量也要一致。



方法二Aspera命令行模式



在预上传界面打开命令行的上传说明,或者在第7步勾选命令行选项。



1. 下载aspera.openssh,记录NCBI数据接收地址,即上传者专属路径(图7)。






图7 账户对应的专属路径和密钥界面



2. 查找记录aspera.openssh和ascp.exe两个文档的存储路径,添加两个“环境变量”:ASPERA_SCP_PASS 和Path(图8)。






图8 添加环境变量



操作如下:



我的电脑 → 鼠标右键→ 属性 → 高级系统设置 →环境变量 → 新建 →



“变量”输入“ASPERA_SCP_PASS”,“值”输入“路径/aspera.openssh”;



新建 →“变量”输入“Path”,“值”输入“路径/ascp.exe” → 确定。



3. 进入命令行模式:



Windows + R → 输入cmd → 确定 → 打开命令提示符



4. 输入命令:



(1)命令构成(各成分以空格相连):



①"路径ascp.exe"



②-i "路径aspera.openssh"



③上传参数



④"数据存放路径"



⑤NCBI接收地址



(2)命令示例:



①"C:UsersAdministratorAppDataLocalProgramsAsperaAsperaConnectbinascp.exe"



②-i "D:aspera.openssh"



③-QT -l100m -k1 -d



④"D:raw data" ⑤[email protected]:uploads/[email protected]_JexlxJIL



Tips:-l100m,表示设定的最大上传速度。



Tips:-d表示打开本地路径,建议先将所有待上传的测序数据放在一个文件夹内,再输入命令行,即可上传该文件夹内所有文档。



如图9,输入命令后回车,界面会显示读取的文档列表、上传进度、文件大小、速度和耗时。完成后会给出Completed说明。






图9 Asper命令行上传界面(当前速度每秒约9.4M)



5. 上传完成后,回到NCBI界面,点击刷新,选择文档



Tips:一般上传完成后,需要等待大约10min,NCBI网页才会同步上传完成。



方法三FTP上传



在预上传界面打开FTP的上传说明,或者在第7步勾选FTP选项。



1. 按图10,记录红框中的相关信息






图10 FTP上传提示



2. 打开软件,本地站点打开对应文件夹(图11)。






图11 FTP上传文档选择



3. 建立连接(图12),输入对应主机(Address),用户名(Username),密码(Password)。






图12 与NCBI建立连接



4. 输入远程站点分配的目录位置,enter键进入上传目录(图13)。






图13 远程连接



5. 在左边的“本地站点”找到要上传的文件夹,点击鼠标右键,点“上传”,页面下边则会有文件在上传的队列中。上传完成后,回到NCBI界面刷新。



Overview 总览



上传完成后可检查所有信息,确认无误后提交。



跳转至my submission,显示已提交,等待处理。大约10分钟后,Bioproject和Biosample一般会先处理完成,然后SRA待处理(图14)。1-2天后,SRA处理完成,即可获得样本和项目的SRA编号。






图14 上传进程查看



由于整个过程涉及到的编号非常多,所以我们进行了对比汇总,其中红色编号表示可以用在文章中作为检索测序数据的编号(图15)。






图15 NCBI上传编号说明



以上就是原始测序数据上传至NCBI的SRA数据库的所有操作指南,希望能帮助大家在数据上传时少走一些坑,让数据上传之路畅通无阻~

发表评论:
昵称

邮件地址 (选填)

个人主页 (选填)

内容