上传高通量测序原始文件
时间:2022-04-26
本文章向大家介绍上传高通量测序原始文件,主要内容包括注册账户、填写MetaSheet、Linux下lftp上传、Filezilla上传、上传完成后,需要给GEO的管理人员写一封邮件,大体内容如下:、获取GEO号、Linux下智能上传、基本概念、基础应用、原理机制和需要注意的事项等,并结合实例形式分析了其使用技巧,希望通过本文能帮助到大家理解应用这部分内容。
在我们发表高通量测序文章之前通常要上传测序数据到GEO数据库,现总结流程如下。
注册账户、填写MetaSheet
- 在NCBI GEO官网注册一个账号,然后登陆。
- 点击Submission Guidelines . 从中查找
GEOarchive spreadsheet format
,并下载Metadata spreadsheet
, 通常是Download metadata spreadsheet (template and examples) UPDATED!,官方推荐下载最新版,这儿就提供链接了。 - 下载完之后填写表格。表格中有2个样例表,可以参考着填写。
- 表格里面需要的MD5值在Linux下可以使用命令
md5sum filename
来获取; Windows下可以在网上搜索一个MD5值计算工具,比如http://www.winmd5.com/。
- 表格里面需要的MD5值在Linux下可以使用命令
- 数据上传,原始测序的fastq一般采用gzip压缩后上传。
- 在Linux系统,使用的是
lftp
上传; Windows可以使用FileZilla.
- 在Linux系统,使用的是
Linux下lftp上传
为了方便lftp上传,我写了一个bash脚本, 命名为GEO_upload.sh
,只需提供FTP服务器的地址、用户名、密码、上传文件所在目录和上传到FTP服务器的目录即可。
GEO_upload.sh -f ftp-private.ncbi.nlm.nih.gov -u geo -p password -t fasp/detination_dir/ -s localdir/
为了简单方便,localdir
里面只包含需要上传的文件,包括原始测序文件, 处理后文件和Metadata spreadsheet。
#!/bin/bash
#set -x
set -e
set -u
usage()
{
cat <<EOF >&2
${txtcyn}
Usage:
$0 options${txtrst}
${bldblu}Function${txtrst}:
This script is used to upload files to an FTP server using lftp.
${txtbld}OPTIONS${txtrst}:
-f FTP address ${bldred}[NECESSARY]${txtrst}
-u User name ${bldred}[NECESSARY]${txtrst}
-p Password ${bldred}[NECESSARY]${txtrst}
-t Target dir ${bldred}[NECESSARY]${txtrst}
-s Source dir ${bldred}[NECESSARY]${txtrst}
EOF
}
ftp=
user=
passwd=
target=
source_dir=
while getopts "hf:u:p:t:s:" OPTION
do
case $OPTION in
h)
usage
exit 1
;;
f)
ftp=$OPTARG
;;
u)
user=$OPTARG
;;
p)
passwd=$OPTARG
;;
t)
target=$OPTARG
;;
s)
source_dir=$OPTARG
;;
?)
usage
exit 1
;;
esac
done
if [ -z $ftp ]; then
usage
exit 1
fi
cat <<END >lftp.script
open -u ${user},${passwd} ${ftp}
mkdir -p ${target}
cd ${target}
cache size 33554432
set cmd:parallel 10
mput -c ${source_dir}/*
END
lftp -f lftp.script
Filezilla上传
- 如图所示,填写好登录所需的信息,然后双击进入
fasp
目录。 - 在右侧窗口,点击右键,选择
创建目录并进入
。 - 将左侧窗口要上传的文件拖动到右侧窗口,开始上传。
- 在菜单栏的
传输
—对已存在文件的默认操作
—选择上传-继续文件传输
即可实现断点续传。 - 设置
重连次数
:编辑
-设置
-最大重试次数 99; 登陆重试延时 200; 超时秒数 20
上传完成后,需要给GEO的管理人员写一封邮件,大体内容如下:
Receiver: geo@ncbi.nlm.nih.gov
Subject: ftp upload
Context:
Dear Sir/Madam,
Thanks for you kindly host such great public data resource.
I have successfully transferred my data to NCBI-GEO ftp sever.
Here is the information you may be needed for further processing
1. GEO account username: 我的GEO用户名
2. Names of the directory and files deposited: 文件上传的路径, 对应上
面的fasp/detination_dir/
3. Public release date: 2018-12-31 文件释放时间,一般可以设置的比较远
If there is any format or content problem, please do not hesitate to
contact me.
Best,
Name
获取GEO号
待GEO的工作人员审核处理后,你可以在GEO的账户下查看已上次的数据的GEO 号和供Reviewer访问的私人链接用于文章审阅。
Linux下智能上传
另外还可以借助airflow,使得上传更加自动化,具体程序见 GEO_upload.py。
- 碎片化 | 第四阶段-53-hibernate持久化session问题解决-视频
- 入门webpack(下)
- 巨头们关注的实时Web:发展与相关技术
- 碎片化 | 第四阶段-54-hibernate-spring整合流程-视频
- OpenDaylight Lithium版本简单应用及流表操作指南
- 碎片化 | 第四阶段-55-OpenSessionInViewFilter组件配置解决session问题-视频
- 入门Webpack(上)
- 碎片化 | 第四阶段-56-ManyToOne和OneToMany映射关系-视频
- 基于网络流量的SDN最短路径转发应用
- 碎片化 | 第四阶段-57-hibernate二级缓存-视频
- NoSQL篇 | NoSQL从小白到码神 之 Redis篇
- Neutron和ONOS集成实践
- 基于OpenDaylight和OVSDB搭建VxLAN网络
- 史上最强----机器学习经典总结---入门必读
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- SpringBoot整合自定义注解
- nginx被动检测
- Python获取股票历史数据
- 实习第四周
- 浅谈推进有赞全站 HTTPS 项目-工程篇
- Checks autowiring problems in a bean class问题解决
- 有赞权限系统
- python处理txt文件常用方法
- 修改springboot运行时命令行Banner
- 适应性页面自己的看法
- Vant 1.0 正式发布:轻量、可靠的移动端 Vue 组件库
- SAP CDS view单元测试框架Test Double介绍
- 漫谈 React 组件库开发(二):组件库最佳实践
- 搭建简易的物联网服务端和客户端-移动家庭能力平台【1】(二十三)
- 异步系统的两种测试方法