There are questions remain, We'll search for the answers together. But one thing we known for sure,the future is not set!

【原创文章】上传转录组测序原始数据到NCBI的详细攻略

数据分析 百蔬君 3805℃ 已收录 0评论

最近投篇文章文章到JAFC,要求把转录组数据传到公共数据库,大部分人的选择应当都是传到NCBI了。

记录下我传转录组数据到NCBI的经历,备以后待查。

NCBI数据库地址:https://www.ncbi.nlm.nih.gov/

毫无疑问,先自己注册一个账号,我直接使用ORDIC账号登陆。

登陆后选择首页的“submit”按钮上传数据。来到“Submission Portal”页面。

第一次到这个页面,我也是懵的,不知道改选啥。琢磨研究了了一会儿,搞明白了。对于仅仅进行了质量控制,去除含有接头和低质量的Reads的clean data,还没有进行比对组装的原始数据,需要选择“Sequence Read Archive (SRA)”。不用去搜索了,直接把Submission Portal页面往下翻,找到“Sequence Read Archive (SRA),点击里面的Submit即可。

来到SRA的提交页面。

点击”new submission“,第一页是填写submitter的个人信息,第二个是填写“gemeral info”.这里的BioProject
BioProject和BioSample都选择No,程序会自动创建,不需要再额外申请。下面的释放时间,可以自由选择,马上释放或者特定时间释放,都可以。

第三页是Project Info,填写项目情况。”Relevance“是问你测序的目标是农业、工业还是其他行业。

第四页是sample_type,样品类型,是植物、动物还是其他生物。

第五页是attributes,这个是难点,花了我好久时间才搞懂。

提供样品的属性,我喜欢用第二个,使用Attributes file,在本地编辑完之后,在上传。我是经过无数次的尝试之后才过了这一关,我把我的分享一下

填这个表一定要认真看他们的这个说明,https://submit.ncbi.nlm.nih.gov/biosample/template/?package-0=Plant.1.0&action=definition

一个星星,那是必填项;两个星星,至少选择一个填写。开始按照说明,只要把绿色的填了就行了,填完了之后发现根本不是那么一回事儿。一直在提示我说有很多行的数据是一致的,可是我的每一行的”sample_name“明明是不同的呀,开始我以为是字符的原因,结果我就用1,2,3,4,5,6这样的name,也是不行,那么很明显,问题不在这里了,往后走,sample_title,三个重复的title肯定是一样的哈。bioproject_accession我全部留空,还没有。organism这里可以在他们数据库查,也可以填自己的。通过多次的尝试,我发现问题在”isolate“,这个是”隔离“意思,他的解释是对获取样本的特定描写,也就是这里一定要明确区分几个样本。

另外,collection_date,geo_loc_name和tissue是必填项,collection_date采集时间,geo_loc_name,采集地点,比如广州。tissue,组织,比如叶片,或者果实等。开始一致通不过,我还填了age,样本时间,dev_stage发育阶段,cultivar,栽培种名,最后总算是过了。

来到第六页,SRA METADATA,这里我还是选择本地编辑SRA_metadata文件,然后上传。我也分析一下。

 

sample_name和library_ID每个不同就行,library_selection,建库方法,一般是PolyA,layout形式是双端测序paired,platform测序平台,我的是ILLUMINA,instrument_model具体设备型号是Illumina HiSeq X。design_description这个就是构库的方法。filetype文件类型一般是fastq. 如果前面layout选择了paired,那么后面的filename就应当是2个相对应的数据,并且这里的filename需要和上传的文件名完全吻合,不建议使用特殊字符赖命名文件,不然出现各种错误。

第七页是files,文件上传。

这里询问上传文件的方式,第一种就是通过浏览器上传,不推荐。第二种是通过FTP软件或者ASPERA命令上传,ASPERA的浏览器插件和命令行可能效果也不过,我看有人推荐过。我个人喜欢FTP,主要是可以续传,丢在FTP里面就不管了。

怎么传呢。他这个FTP instructions里面有详细介绍,来看看

这里有两个关键点,1,提供了路径和账号,地址是ftp-private.ncbi.nlm.nih.gov,用户名是subftp,和相应的密码。2,传到哪个位置呢,不是根目录,而是一个临时次级目录,比如我这里是uploads/cn_8rV2DzvP,因人而异。这里要提醒一点的是这个目录在CuteFTP连接后看不到,需要手动输入这个路径,然后上传我们的cleandata就ok啦。全部传完之后,这些数据就会出现在第七页的preload folder这里,可供选择啦。

 

 

 

 

 

 

转载请注明:百蔬君 » 【原创文章】上传转录组测序原始数据到NCBI的详细攻略

喜欢 (4)or分享 (0)
发表我的评论
取消评论

请证明您不是机器人(^v^):

表情