MapReduce工作笔记——Job上传普通文件和大文件

时间:2022-07-24
本文章向大家介绍MapReduce工作笔记——Job上传普通文件和大文件,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

0. 前言

我们在配置MR Streaming任务的时候,通常会上传mapper、reducer以及其他会用到的一些文件,在MapReduce工作笔记——Hadoop shell 常用文件操作命令中提到过使用put数据上传HDFS。在执行MR Job 的时候,Hadoop会将其配置的文件数据打包成jar,两种上传的目标是不一样的,前者是数据,后者是配置,本文章将主要介绍普通脚本文件的上传以及大文件的上传。

1. 上传普通文件

上传本地文件可以使用-file 运用示例:

Code.1.1 file 上传示例

hadoop streaming 
  -mapper "./mapper.py" 
  -reducer "./reducer.py" 
  -file "$MY_PATH/reducer.py" 
  -file "$MY_PATH/mapper.py" 
  -file "test.txt"

使用-file 上传后的目录存在相对路径之下,在配置-mapper 以及-reducer 时候,直接使用相对路径以及文件名即可。

2. 上传大文件

上文中提到过这些上传的文件会打包到job 的jar 包中,但是如果遇到有jar包大小时,文件大小总和超过设置的大小会报错,这时候就需要使用-cacheFile大文件上传, 使用 -cacheArchive 上传压缩文件

2.1 cacheFile上传至Hdfs

Code.2.1 cacheFile示例

-cacheFile /home/cache-test/testfile.txt#test
#如果有多个文件,选项可以写成:
-cacheFile /home/cache-test/testfile1.txt#test1 
-cacheFile /home/cache-test/testfile2.txt#test2

这里的任务的当前工作目录下有一个“test”符号链接,它指向testfile.txt文件在本地的拷贝。

2.2 cacheArchive上传压缩文件

cacheArchive支持zip、tar、tgz、tar.gz和jar等压缩文件解压上传。

Code.2.2 cacheArchive示例

-cacheArchive /home/cache-test/testfile2.tar.gz#test

在上面的例子里,url中#后的部分是建立在任务当前工作目录下的符号链接的名字,此处为test,test指向data解压后的目录。