详解从 0 开始使用 Docker 快速搭建 Hadoop 集群环境
Linux
Info:
- Ubuntu 16.10 x64
Docker 本身就是基于 Linux 的,所以首先以我的一台服务器做实验。虽然最后跑 wordcount 已经由于内存不足而崩掉,但是之前的过程还是可以参考的。
连接服务器
使用 ssh 命令连接远程服务器。
ssh root@[Your IP Address]
更新软件列表
apt-get update
更新完成。
安装 Docker
sudo apt-get install docker.io
当遇到输入是否继续时,输入「Y/y」继续。
安装完成
输入「docker」测试是否安装成功。
拉取镜像
镜像,是 Docker 的核心,可以通过从远程拉取镜像即可配置好我们所需要的环境,我们这次需要的是 Hadoop 集群的镜像。
在本文中,我们将使用 kiwenlau 的 Hadoop 集群镜像以及其配置。由于我的服务器本身即在国外,因此拉取镜像的速度较快,国内由于众所周知的原因,可以替换为相应的国内源,以加快拉取速度。
sudo docker pull kiwenlau/hadoop:1.0
拉取镜像完成。
克隆仓库
克隆仓库到当前文件夹(可以自行创建并切换到相应文件夹)。
git clone https://github.com/kiwenlau/hadoop-cluster-docker
克隆仓库完成
桥接网络
sudo docker network create --driver=bridge hadoop
运行容器
cd hadoop-cluster-docker ./start-container.sh
默认是 1 个主节点,2 个从节点,当然也可以根据性能调整为 N 节点,详见文末参考链接。
启动 Hadoop
./start-hadoop.sh
在上一步,我们已经运行容器,即可直接运行 Hadoop。启动时长与机器性能有关,也是难为了我这一台 512 MB 内存的服务器。
测试 Word Count
./run-wordcount.sh
Word Count 是一个测试 Hadoop 的 Shell 脚本,即计算文本中的单词个数。不过由于我的服务器内存不够分配无法完成,所以后续以本机进行测试。
网页管理
我们可以通过网页远程管理 Hadoop:
- Name Node: [Your IP Address]:50070/
- Resource Manager: [Your IP Address]:8088/
macOS
Info:
- macOS 10.12.4 beta (16E191a)
下载 & 安装
打开 Docker 官方网站:https://www.docker.com,选择社区版,并下载、安装。Windows 系统用户可以选择 Windows 版本。
Docker CE
macOS or Windows
运行 Docker
打开 Docker。为了简单,我没有改动配置,如需更改,可以在 Preferences 中修改。
我们可以在终端(Terminal)输入「docker」,测试是否安装成功。
拉取镜像 & 克隆仓库 & 桥接网络 & 运行容器 & 启动 Hadoop
同 Linux。
测试 Word Count
./run-wordcount.sh
同 Linux,但这次我们可以运算出结果了。
Windows
其实最开始就没有打算放出 Windows 版,倒不是因为觉得 Windows 不好,而是目前手头没有 Windows 的电脑,借用同学的电脑也不是很方便。如果需要安装 Docker,需要 CPU 支持虚拟化,且安装了 64 位 Windows 10 Pro/企业版(需要开启 Hyper-V)。其他版本的 Windows 可以安装 Docker Toolbox。
Intellij IDEA
我们的 Hadoop 集群已经在容器里安装完成,而且已经可以运行。相比自己一个个建立虚拟机,这样的确十分方便、快捷。为了便于开发调试,接下来就需要在 Intellij IDEA 下配置开发环境,包管理工具选择 Gradle。Maven 配合 Eclipse 的配置网上已经有很多了,需要的同学可以自行搜索。
Docker 开启 9000 端口映射
由于我们使用的是 kiwenlau 的镜像和开源脚本,虽然加快了配置过程,但是也屏蔽了很多细节。比如在其脚本中只默认开启了 50070 和 8088 的端口映射,我们可以通过 docker ps(注意是在本机,而不是在容器运行该命令)列出所有容器,查看容器映射的端口。
cd hadoop-cluster-docker vim start-container.sh
切换到脚本文件夹,使用 Vim 编辑 start-container.sh。在图中光标处添加以下内容,保存并退出。
-p 9000:9000 \
重启容器,并查看容器状态,如图即为映射成功。
开启 Web HDFS 管理*
该步非必须。为了方便在网页端管理,因此开启 Web 端,默认关闭。
which hadoop cd /usr/local/hadoop/etc/hadoop/ ls vi core-site.xml
找到 Hadoop 配置文件路径,使用 Vi 编辑,若 Vi 的插入模式(Insert Mode)中,上下左右变成了 ABCD,那么可以使用以下命令即可:cp /etc/vim/vimrc ~/.vimrc
修复。
添加以下内容。
<property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property>
启动 Hadoop
同 Linux。
构建依赖
使用 Intellij IDEA 新建一个 Gradle 项目,在 Build.gradle 中加入以下依赖(对应容器 Hadoop 版本)。
compile group: 'org.apache.hadoop', name: 'hadoop-common', version: '2.7.2' compile group: 'org.apache.hadoop', name: 'hadoop-hdfs', version: '2.7.2'
Demo
import org.apache.commons.io.IOUtils; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.junit.Before; import org.junit.Test; import java.io.FileInputStream; import java.io.IOException; import java.net.URI; /** * Created by kingcos on 25/03/2017. */ public class HDFSOperations { FileSystem fileSystem; @Before public void configure() throws Exception { Configuration configuration = new Configuration(); configuration.set("fs.defaultFS", "hdfs://192.168.1.120:9000"); fileSystem = FileSystem.get(URI.create("hdfs://192.168.1.120:9000"), configuration, "root"); } @Test public void listFiles() throws IOException { Path path = new Path("/"); RemoteIterator<LocatedFileStatus> iterator = fileSystem.listFiles(path, true); while (iterator.hasNext()) { LocatedFileStatus status = iterator.next(); System.out.println(status.getPath().getName()); } } @Test public void rm() throws IOException { Path path = new Path("/"); fileSystem.delete(path, true); } @Test public void mkdir() throws IOException { Path path = new Path("/demo"); fileSystem.mkdirs(path); } }
之后便可以通过 IDEA 直接写代码来测试,这里简单写了几个方法。
总结
在写这篇文章之前,其实我对 Docker 的概念很不了解。但是通过 Learn by do it. 大致知道了其中的概念和原理。我们完全可以构建自己的容器 Dockerfile,来部署生产和开发环境,其强大的可移植性大大缩短配置的过程。
由于个人对 Hadoop 和 Docker 的了解甚少,如有错误,希望指出,我会学习、改正。
- 开源API测试工具 Hitchhiker v0.7更新 - Schedule的对比diff
- com.mysql.jdbc.exceptions.jdbc4.CommunicationsE...
- 简陋的swift carthage copy-frameworks 辅助脚本
- 【自问自答】关于 Swift 的几个疑问
- 高级PHP应用程序漏洞审核技术【一】
- 【读书笔记】The Swift Programming Language (Swift 4.0.3)
- Ubuntu 下mysql常用操作
- JDK1.8源码(五)——java.util.ArrayList 类
- 代码审计入门总结
- ubuntu mysql启动|停止|重启
- JDK1.8源码(四)——java.util.Arrays 类
- JDK1.8源码(三)——java.lang.String 类
- JDK1.8源码(二)——java.lang.Integer 类
- Java关键字——instanceof
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- PHP验证类的封装与使用方法详解
- Laravel框架实现的rbac权限管理操作示例
- Laravel框架实现的批量删除功能示例
- PyTorch中model.zero_grad()和optimizer.zero_grad()用法
- 利用PyTorch实现VGG16教程
- PHP添加文字水印或图片水印的水印类完整源代码与使用示例
- Python 分布式缓存之Reids数据类型操作详解
- Pycharm打开已有项目配置python环境的方法
- python cv2.resize函数high和width注意事项说明
- pytorch SENet实现案例
- python如何安装下载后的模块
- Python爬虫如何应对Cloudflare邮箱加密
- 如何使用Python处理HDF格式数据及可视化问题
- tp5框架使用composer实现日志记录功能示例
- python 图像插值 最近邻、双线性、双三次实例