sqoop数据导入总结
这是黄文辉同学处女作,大家支持!
其他相关文章:元数据概念
Sqoop主要用来在Hadoop(HDFS)和关系数据库中传递数据,使用Sqoop,我们可以方便地将数据从关系型数据库导入HDFS,或者将数据从关系型数据库导入HDFS,或者将从HDFS导出到关系型数据库.
从数据库导入数据
- import命令参数说明
参数 |
说明 |
---|---|
--append |
将数据追加到HDFS上一个已存在的数据集上 |
--as-avrodatafile |
将数据导入到Avro数据文件 |
--as-sequencefile |
将数据导入到SequenceFile |
--as-textfile |
将数据导入到普通文本文件(默认) |
--as-parquetfile |
将数据导入到parquetfile文件 |
--boundary-query <statement> |
边界查询,用于创建分片(InputSplit) |
--columns <col,col,col…> |
从表中导出指定的一组列的数据 |
--delete-target-dir |
如果指定目录存在,则先删除掉 |
--direct |
使用直接导入模式(优化导入速度) |
--direct-split-size <n> |
分割输入stream的字节大小(在直接导入模式下) |
--fetch-size <n> |
从数据库中批量读取记录数 |
--inline-lob-limit <n> |
设置内联的LOB对象的大小 |
-m,--num-mappers <n> |
使用n个map任务并行导入数据(默认是4个) |
-e,--query <statement> |
导入的查询语句 |
--split-by <column-name> |
指定按照哪个列去分割数据 |
--table <table-name> |
导入的源表表名 |
--target-dir <dir> |
导入HDFS的目标路径 |
--warehouse-dir <dir> |
HDFS存放表的根路径 |
--where <where clause> |
指定导出时所使用的查询条件 |
-z,--compress |
启用压缩 |
--compression-codec <c> |
指定Hadoop的codec方式(默认gzip) |
--null-string <null-string> |
果指定列为字符串类型,使用指定字符串替换值为null的该类列的值 |
--null-non-string <null-string> |
如果指定列为非字符串类型,使用指定字符串替换值为nul |
2.基本使用说明
1)将表数据导入
sqoop import --connect jdbc:mysql://192.168.xx.xx:port/xxxx --username xxxx –password --table "t_user" --target-dir "/test/sqoop/table" -m 1 --as-textfile
说明:使用一个map任务将t_user这个表的数据从数据库中导入到--target-dir指定的hdfs目录下,以text格式保存.
注意:从oracle中导入数据时,table的表命必须要大写,否则会报该table找不到的错误.
2)按条件将表数据导入
sqoop import --connect jdbc:mysql://192.168.xx.xx:port/xxxx --username xxxx --password --table "t_user" --target-dir "/test/sqoop/table" -m 1 --as-textfile --columns “ID,NAME,AGE,PHONE”—where "DATE_FORMAT(createTime,'%Y%m%d')=${vdate}"
说明:在使用--columns中,指定的columns的字段中不能调用数据库函数,只能通过sql查询去调用数据库函数.
3)使用sql将表数据导入
sqoop import --connect jdbc:mysql://192.168.xx.xx:port/xxxx --username xxxx –password --target-dir "/test/sqoop/table" -m 1 --as-textfile -query “select id,name,age from t_user where age>10 and $CONDITIONS” --split-by “id”
说明:使用sql时,最后要加上$CONDITIONS
符号.如果是双引号,则是$CONDITIONS
.当使用--query参数进行导入时,必须使用--split-by参数来指定某个切分字段,
3.sqoop导入原理
1)导入原理
sqoop在导入过程中,需要使用--split-by指定的字段进行数据切分.sqoop会去最大和最小split-by字段值,然后根据-m(--num-mappers)这个参数确定切分数量.例如:对于split-by是int类型来说,如果select max(split-by),min(split-by) from得到分别为100和1,而—num-mappers=2.那么1到100的数据,就被切分成2条sql,分别是select * from table where split-by>=1 and split-by <=50和select * from table where split-by>=51 and split-by <=100 .之后将切分出来sql分配到不同的map进行数据导入处理.
2)sqoop转化sql
对于上文中使用sql将数据导入的命令,根据导入原理转化的sql为
- 获取返回的结果字段信息
‘select id,name,age from t_user where age>10 and $CONDITIONS’
其中$CONDITIONS替换为(1=0)
2.获取split-by的最大值和最小值
‘SELECT MIN(id),MAX(id) FROM (select id,name,age from t_user where age>10 and $CONDITIONS) AS t1’
其中$CONDITIONS替换为(1=1)
3.根据sqoop导入原理中的切分规则,将sql切分,执行切分后的sql获取数据
‘select id,name,age from t_user where age>10 and $CONDITIONS’
其中$CONDITIONS替换为(1=1)
- TensorFlow图像分类教程
- Enterprise Library Policy Injection Application Block 之一: PIAB Overview
- Python教学——第七天
- 大数据将带来电视媒体生态式变革!大数据如何深度融合电视媒体?
- Silverlight SEO优化
- Silverlight性能优化
- WCF后续之旅(6): 通过WCF Extension实现Context信息的传递
- WCF后续之旅(6): 通过WCF Extension实现Context信息的传递
- 理性的相亲方法!精品课:《决策树》
- Asp.Net无刷新分页( jquery.pagination.js)
- 为什么网站需要用CDN来加速?
- Jmeter常用获取数据的几种方式
- [Silverlight 4 RC]RichTextBox概览
- WCF后续之旅(4):WCF Extension Point 概览
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- unity官方案例精讲(第三章)--星际航行游戏Space Shooter
- Pwnhub Web题Classroom题解与分析
- WTForm的URLXSS谈开源组件的安全性
- 谈一谈复杂的正则表达式分析
- Linux 用户名、主机添加背景色
- percona-toolkit大表操作DDL使用 2.1. 数据库字符集修改2.2. 数据库建库、授权操作2.3. 数据库建表、插入数据4.1. 添加表字段【
- PHPMailer 代码执行漏洞(CVE-2016-10033)分析(含通用POC)
- linux 平均负载 load average 的含义【转】
- zookeeper-01 概述
- zookeeper-02 部署
- zookeeper-03 命令行操作
- java连接zookeeper服务器出现“KeeperErrorCode = ConnectionLoss for ...”
- Linux 内存使用率
- CentOS7.4下编译Hadoop-2.7.6
- VMware安装CentOS6