Sqoop的导入
时间:2020-05-21
本文章向大家介绍Sqoop的导入,主要包括Sqoop的导入使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
导入数据
导入到 hdfs
sqoop import \
#--connect jdbc:mysql://hadoop102:3306/$db_name \
--connect "jdbc:oracle:thin:@192.156.456.456:1521:SYNTONG" \
--username "school" \
--password "school" \
--target-dir "$db_dir" \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\\t" \
--query "$sql"
参数 | 说明 | |
---|---|---|
--append |
数据追加到hdfs已经存在的数据组中。使用该参数,sqoop将把数据先导入到一个临时目录中,避免文件重名。 |
|
--as-avrodatafile |
将数据导入到Avro数据文件中 | |
--as-sequencefile |
将数据导入到sequence文件中 | |
--as-textfile |
将数据导入到普通文本文件中。最终可以在hive中通过sql语句查询出结果。 |
|
--enclosed-by '\"' |
字段值前后加上指定字符,比如双引号 | |
--columns<col,col> |
指定导入的字段,格式如:--columns id,username |
|
-m,--num-mappers |
启动N个map来并行导入数据,默认是4个,最好不要将数字设置为高于集群的节点数 | |
--query,-e <sql> |
sql语句查询结果集。该参数使用时必须指定 |
|
--boundary-query <statement> |
边界查询。在导入前先通过SQL查询得到一个结果集,然后导入的数据就是该结果集内的数据。 格式如: |
|
--table <table-name> |
关系数据库表名,数据从该表中获取 | |
--delete-target-dir |
如果目标目录存在,先删除目录 | |
--target-dir <dir> |
指定hdfs路径 | |
--fields-terminated-by "\t" | 每个字段是以什么符号作为结束的,默认是逗号 | |
|
为了避免空值时,没有数据 |
|
--where |
查询条件,示例:--where "id = 2" |
|
-z,--compress |
压缩参数,默认情况下数据是没被压缩的,通过该参数可以使用gzip压缩算法对数据进行压缩,适用于SequenceFile, text文本文件, 和Avro文件 | |
--compression-codec |
Hadoop压缩编码,默认是gzip | |
--direct |
直接导入模式,使用的是关系数据库自带的导入导出工具。这样导入会更快 支持的数据库类型与版本: |
|
--direct-split-size |
在使用上面direct直接导入的基础上,对导入的流按字节数分块,特别是使用直连模式从PostgreSQL导入数据的时候,可以将一个到达设定大小的文件分为几个独立的文件。 | |
--split-by <column> |
表的列名,用来切分工作单元,一般后面跟主键ID |
|
--inline-lob-limit |
设定大对象数据类型的最大值 |
|
导入Hive
sqoop import \
--connect "jdbc:oracle:thin:@192.198.123.456:1521:SYNTONG" \
--username "school" \
--password "school" \
--query "$sql" \
--hive-table test.view_trjn \
--hive-drop-import-delims \
--target-dir "$db_dir" \
--fields-terminated-by "\\t" \
--hive-overwrite \
--null-string '\\N' \
--null-non-string '\\N' \--hive-import
参数 | 说明 | |
---|---|---|
--hive-overwrite |
覆盖掉在hive表中已经存在的数据 | |
--hive-table |
后面接要创建的hive表 | |
–hive-partition-value “2018-08-08” | 指定分区表的值 | |
–hive-partition-key “dt” |
指定分区表的字段 |
|
--hive-delims-replacement“ ” |
导入到Hive时,用用户定义的字符串替换字符串字段中的\n、\r和\01 | |
--hive-drop-import-delims |
从字符串字段中删除\n、\r和\01 |
|
--hive-import |
指定是导入 Hive |
原文地址:https://www.cnblogs.com/mergy/p/12932398.html
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 每日打卡 373. 查找和最小的K对数字
- IE11出现"__doPostBack”未定义
- latex()、ploy2sym()、symsum()的妙用
- 性能最佳实践:MongoDB数据建模和内存大小调整
- 节省你生命的一个小技术No.193
- K8S 生态周报| Traefik v2.3.0-rc2 发布
- 如何从 Notion 批量导出 Markdown?
- 【LeetCode】1518. 换酒问题
- OBS推流工具使用说明
- Python多进程
- app反编译遇到360加固,傻瓜式脱壳
- Java底层-本地接口(JNI)
- 如何从最坏、平均、最好的情况分析复杂度?
- 利用Python进行MR栅格数据处理
- 利用Sql处理MR栅格数据