单细胞数据上传GEO操作指南
卖萌控的博客
点击这里进入电脑版页面!体验更好
单细胞数据上传GEO操作指南
2024-8-18 萌小白


最近很多老师的单细胞文章都纷纷开始投稿,却被文章发表前的临门一脚——GEO数据上传难住了,今天我们就来一起学习下单细胞数据上传GEO的具体操作步骤吧~



跟着这份操作指南,上传从此不再犯难!



· GEO数据库简介 ·



GEO数据库全称Gene Expression
Omnibus,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库,主要用来储存二代测序、芯片以及其他高通量测序数据。利用这个数据库,我们可以公开共享自己的实验测序数据,也可以检索到其他文章上传的数据。很多文章在正式见刊前会要求将数据上传到GEO数据库中,具体如何操作呢?别担心,按照以下流程一步步来即可~






1、NCBI帐号注册/登录



进入网站



https://www.ncbi.nlm.nih.gov/geo/submitter/



如果已有NCBI帐号,点击Login登录;



如果没有则需要注册,注册步骤很简单,填写带星号(必填)的个人基本信息和邮箱地址即可(注意需要填写常用邮箱,后续上传成功或失败消息都会通过邮件形式告知)。









2、文件准备



点击进入



https://www.ncbi.nlm.nih.gov/geo/info/submission.html,



选择上传数据的类型:



Submit high-throughput sequence submisssions(高通量测序数据)。






这里我们需要准备三个文件,分别是:



① Metadata spreadsheet



② Processed data files



③ Raw data files



① Metadata spreadsheet



Metadata spreadsheet的示例模版表格可以从官网下载



(如下图,也可以进入以下链接直接下载https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx)。






表格中的蓝色加粗字体为必填项,蓝色未加粗的为选填项。右上角有红色三角标志的表格,将鼠标放上去会弹出填写内容的提示。以下是对表格里7个模块的详细说明:



· 1.1 SERIES



上传数据的基本信息



比如文章标题、研究目的、样本数量、来源、测序平台、主要贡献者等。






* 填写示例如下 *






·1.2 SAMPLES



样品描述信息



包括样品名称、组织来源、物种、年龄、表达量数据和原始数据等。






* 填写示例如下 *






·1.3 PROTOCOLS



样品的处理和建库等详细信息



可以参考项目报告的附录《欧易生物单细胞转录组实验技术方法说明_英文》进行填写。






* 填写示例如下 *






·1.4 DATA PROCESSING PIPELINE



数据处理步骤和比对参考基因组信息等……



可以参考项目报告的附录《欧易生物单细胞转录组生信分析方法_英文》进行填写。






* 填写示例如下 *






·1.5 PROCESSED DATA FILES



分析得到的基因表达量数据



可以是CellRanger/outs/filtered_feature_bc_matrix中的三个结果文件。






·1.6 RAW FILES



原始数据文件名称、格式、MD5值、测序平台和单双端信息等。






·1.7 PAIRED-END EXPERIMENTS



如果是双端测序,需要填写原始数据Read1 和Read2文件名称。






② Processed data files



基因表达量数据文件,即1.5 PROCESSED DATA FILES步骤中填写的三个结果文件。



③ Raw data files



测序原始数据,一般上传fastq.gz文件即可。



准备文件就绪,万事俱备,只欠东风~下面可以正式开始上传啦!



3、数据上传



回到GEO上传界面,点击Transfer Files,GEO会为你创建一个专属上传空间:uploads/********,如下图的Step1所示。









对于Windows用户,GEO官方推荐使用FileZilla软件



(下载地址:https://filezilla-project.org/),FileZilla软件界面如下所示。



首先使用上图Step2中公布的帐号密码登录




端口号不填,点击快速连接按钮(如果有出现permission demined提示,不影响,忽略即可)。



接着在下方右侧远程站点的地址框中,输入上图Step1提供的个人上传路径:uploads/********,按回车键进入。



最后,在个人上传目录里新建一个文件夹(文件夹名可以是GEO账户名),把第二步我们准备好的文件:Metadata
spreadsheet信息表、Processed data files基因表达矩阵、Raw data
files原始测序数据,全部拖到该文件夹下即可。






(由于单细胞数据量大,整体上传时间会比较久,这时候可以泡杯咖啡,再次自我检查一下文件是否都已填写完整,耐心等待上传完成就可以啦~)



4、通知GEO上传完成



文件上传完成后,点击Step3中的Notify GEO通知GEO,提交后会出现如下页面。









注意:如果上传之后没有及时通知GEO上传完成,文件会在两周后自动删除哦。



如果上传无误,GEO会在5个工作日内给你邮件发送GEO登录号,如:GSEXXXX。如果有问题,工作人员也会通过邮件告知你需要修改的地方,修改后再次上传即可。审核通过后会收到GEO登录号,可以用于准备发表的文章中。



有GEO上传需要,准备发文章的老师们,赶快来试一试吧~



发表评论:
昵称

邮件地址 (选填)

个人主页 (选填)

内容