hadoop搭建完全分布式集群
hadoop搭建完全分布式集群
写在之前
已经安装好zookeeper集群 已经安装好jdk,并配置好了环境变量 准备三台机器(最小集群)
hadoop节点配置
hadoop1 zookeeper NameNode (active) Resourcemanager (active) DataNode NodeManager JournalNode
hadoop2 zookeeper NameNode (standby) Resourcemanager (standby) DataNode NodeManager JournalNode
hadoop3 zookeeper DataNode NodeManager JournalNode
安装
永久关闭防火墙 6
执行:service iptables stop 再次执行:chkconfig iptables off
为每台机器配置主机名以及hosts文件
vim /etc/sysconfig/network
然后执行 hostname 主机名=“主机名” 达到不重启生效目的
host文件示例
192.168.234.21 hadoop01 192.168.234.22 hadoop02 192.168.234.23 hadoop03 192.168.234.24 hadoop04 192.168.234.25 hadoop05 192.168.234.26 hadoop06
将配置好的host文件远程复制到其他机器
scp /etc/hosts root@ip:/etc
为每台机器配置ssh免秘钥登录
执行:ssh-keygen ssh-copy-id root@hadoop1 (分别发送到3台节点上) 具体centos集群下的ssh免密登录
安装和配置01节点的hadoop
配置hadoop-env.sh 进入hadoop安装目录下的etc/hadoop目录 vim hadoop-env.sh 配置jdk安装所在目录 配置hadoop配置文件所在目录
配置core-site.xml
<configuration>
<!--用来指定hdfs的老大,ns为固定属性名,表示两个namenode-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://ns</value>
</property>
<!--用来指定hadoop运行时产生文件的存放目录-->
<property>
<name>hadoop.tmp.dir</name>
<value>/home/software/hadoop-2.7.1/tmp</value>
</property>
<!--执行zookeeper地址-->
<property>
<name>ha.zookeeper.quorum</name>
<value>hadoop01:2181,hadoop02:2181,hadoop03:2181</value>
</property>
</configuration>
配置01节点的hdfs-site.xml
<configuration>
<!--执行hdfs的nameservice为ns,和core-site.xml保持一致-->
<property>
<name>dfs.nameservices</name>
<value>ns</value>
</property>
<!--ns下有两个namenode,分别是nn1,nn2-->
<property>
<name>dfs.ha.namenodes.ns</name>
<value>nn1,nn2</value>
</property>
<!--nn1的RPC通信地址-->
<property>
<name>dfs.namenode.rpc-address.ns.nn1</name>
<value>hadoop01:9000</value>
</property>
<!--nn1的http通信地址-->
<property>
<name>dfs.namenode.http-address.ns.nn1</name>
<value>hadoop01:50070</value>
</property>
<!--nn2的RPC通信地址-->
<property>
<name>dfs.namenode.rpc-address.ns.nn2</name>
<value>hadoop02:9000</value>
</property>
<!--nn2的http通信地址-->
<property>
<name>dfs.namenode.http-address.ns.nn2</name>
<value>hadoop02:50070</value>
</property>
<!--指定namenode的元数据在JournalNode上的存放位置,这样,namenode2可以从jn集群里获取
最新的namenode的信息,达到热备的效果-->
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://hadoop01:8485;hadoop02:8485;hadoop03:8485/ns</value>
</property>
<!--指定JournalNode存放数据的位置-->
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/home/software/hadoop-2.7.1/journal</value>
</property>
<!--开启namenode故障时自动切换-->
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
<!--配置切换的实现方式-->
<property>
<name>dfs.client.failover.proxy.provider.ns</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<!--配置隔离机制-->
<property>
<name>dfs.ha.fencing.methods</name>
<value>sshfence</value>
</property>
<!--配置隔离机制的ssh登录秘钥所在的位置-->
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/root/.ssh/id_rsa</value>
</property>
<!--配置namenode数据存放的位置,可以不配置,如果不配置,默认用的是
core-site.xml里配置的hadoop.tmp.dir的路径-->
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///home/software/hadoop-2.7.1/tmp/namenode</value>
</property>
<!--配置datanode数据存放的位置,可以不配置,如果不配置,默认用的是
core-site.xml里配置的hadoop.tmp.dir的路径-->
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///home/software/hadoop-2.7.1/tmp/datanode</value>
</property>
<!--配置block副本数量-->
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<!--设置hdfs的操作权限,false表示任何用户都可以在hdfs上操作文件-->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>
配置mapred-site.xml
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
配置yarn-site.xml
<configuration>
<!-- 开启YARN HA -->
<property>
<name>yarn.resourcemanager.ha.enabled</name>
<value>true</value>
</property>
<!-- 指定两个resourcemanager的名称 -->
<property>
<name>yarn.resourcemanager.ha.rm-ids</name>
<value>rm1,rm2</value>
</property>
<!-- 配置rm1,rm2的主机 -->
<property>
<name>yarn.resourcemanager.hostname.rm1</name>
<value>hadoop01</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.rm2</name>
<value>hadoop03</value>
</property>
<!--开启yarn恢复机制-->
<property>
<name>yarn.resourcemanager.recovery.enabled</name>
<value>true</value>
</property>
<!--执行rm恢复机制实现类-->
<property>
<name>yarn.resourcemanager.store.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
</property>
<!-- 配置zookeeper的地址 -->
<property>
<name>yarn.resourcemanager.zk-address</name>
<value>hadoop01:2181,hadoop02:2181,hadoop03:2181</value>
<description>For multiple zk services, separate them with comma</description>
</property>
<!-- 指定YARN HA的名称 -->
<property>
<name>yarn.resourcemanager.cluster-id</name>
<value>yarn-ha</value>
</property>
<property>
<!--指定yarn的老大 resoucemanager的地址-->
<name>yarn.resourcemanager.hostname</name>
<value>hadoop03</value>
</property>
<property>
<!--NodeManager获取数据的方式-->
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
配置slaves文件
hadoop04
hadoop05
hadoop06
配置hadoop的环境变量(可不配)
JAVA_HOME=java安装路径
HADOOP_HOME=hadoop安装路径
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export JAVA_HOME PATH CLASSPATH HADOOP_HOME
根据配置文件创建相应目录
在hadoop-2.7.1目录下创建: ①journal目录 ②创建tmp目录 ③在tmp目录下,分别创建namenode目录和datanode目录
使用scp命令将hadoop文件夹copy到其他两台机器
比如copy到hadoop2
scp hadoop root@hadoop2:/home/software
启动集群
启动zookeeper集群
在Zookeeper安装目录的bin目录下执行:sh zkServer.sh start
格式化zookeeper
在zk的leader节点上执行: hdfs zkfc -formatZK,这个指令的作用是在zookeeper集群上生成ha节点(ns节点) 使用 zkServer.sh status可以查看zookeeper的状态
后面的启动步骤可以用一步来代替,进入hadoop安装目录的sbin目录,执行:start-dfs.sh 。但建议还是按部就班来执行,比较可靠。
启动journalnode集群
在01、02、03节点上执行: 切换到hadoop安装目录的bin目录下,执行: sh hadoop-daemon.sh start journalnode 然后执行jps命令查看 出现 Journalnode则启动成功
格式化01节点的namenode
在01节点上执行: hadoop namenode -format
启动01节点的namenode
在01节点上执行: hadoop-daemon.sh start namenode
把02节点的 namenode节点变为standby namenode节点
在02节点上执行: hdfs namenode -bootstrapStandby
启动02节点的namenode节点
在02节点上执行: hadoop-daemon.sh start namenode
在01,02,03节点上启动datanode节点
在01,02,03节点上执行: hadoop-daemon.sh start datanode 如果不能成功启动,删除掉hadoop安装目录下的tmp/datanode下的VERSI目录
启动zkfc(启动FalioverControllerActive)
在01,02节点上执行: hadoop-daemon.sh start zkfc
在01节点上启动 主Resourcemanager
在01节点上执行:start-yarn.sh 启动成功之后02,03节点应该都有nodemanager 的进程 可以使用jps命令查看
检查安装情况
打开浏览器输入:http://192.168.234.21:50070,查看namenode的信息,是active状态的
02节点应该是standby状态的
查看yarn的管理地址http://192.168.234.21:8088(节点01的8088端口)
能成功访问这三个页面并且一个hadoop状态为active另外一个为standby就代表着hadoop完全分布式集群已经搭建成功
- DataBind的一些试验
- 继承HibernateDaoSupport时遇到的问题 使用注解为HibernateDaoSupport注入sessionFa
- 常用代码
- 小程序的新功能你知道吗
- Mapxtreme之活活气死
- 仿淘宝的交易到计时JS
- 继小程序之后“小游戏”也来了,微信为此再次开启神秘入口
- (Head First 设计模式)学习笔记(3) --装饰者模式(StarBuzz咖啡店实例)
- 我的Js代码-按钮按下时判断是否选择了最后一行,给出提示
- (Head First 设计模式)学习笔记(2) --观察者模式(气象站实例)
- Spring Boot使用HandlerInterceptorAdapter和WebMvcConfigurerAdapter实现原始的登录验证
- 一条视频获C+融资 两个域名神助攻
- ExtJs与WCF交互:生成树
- JavaScript大略
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法