Hadoop伪分布式安装

时间:2019-02-20
本文章向大家介绍Hadoop伪分布式安装,主要包括Hadoop伪分布式安装使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

1、下载3.1.1

https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.1.1/

2、上传Linux服务器(目录:/usr/local/big_data/hadoop)

tar -zxvf hadoop-3.1.1.tar.gz

3、配置Hadoop环境变量

vim /etc/profile

export HADOOP_HOME=/usr/local/big_data/hadoop/hadoop-3.1.1
PATH=$PATH:$HADOOP_HOME/bin

source /etc/profile

4、配置(http://archive.cloudera.com/cdh5

core-site.xml

<!-- NameNode URI -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://10.18.6.107:9000</value>
        <description>hdfs://host:port/</description>
    </property>
    <!-- <property>
        <name>io.file.buffer.size</name>
        <value>131072</value>
        <description>SequenceFiles文件中.读写缓存size设定(该属性值单位为KB,131072KB即为默认的64M)</description>
    </property> -->

hdfs-site.xml

<!-- 配置NameNode -->
    <property>
        <name>dfs.replication</name>
        <value>1</value>
        <description>分片数量,伪分布式将其配置成1即可</description>
    </property>
    <!-- <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/big_data/hadoop/tmp/dfs/namenode</value>
        <description>命名空间和事务在本地文件系统永久存储的路径</description>
    </property>
    <property>
        <name>dfs.blocksize</name>
        <value>268435456</value>
        <description>大文件系统HDFS块大小为256M,默认值为64M</description>
    </property>
    <property>
        <name>dfs.namenode.handler.count</name>
        <value>100</value>
        <description>更多的NameNode服务器线程处理来自DataNodes的RPCS</description>
    </property> -->
    <!-- 配置DataNode -->
    <!-- <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/big_data/hadoop/tmp/dfs/datanode</value>
        <description>DataNode在本地文件系统中存放块的路径</description>
    </property> -->

mapred-site.xml

<!-- 使用哪个环境来进行分布式计算的,默认是local-->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>

yarn-site.xml

<!-- 跑什么样的作业 -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

1、查看免密码的ssh

ssh localhost

$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

$ chmod 0600 ~/.ssh/authorized_keys

2、etc/hadoop/hadoop-env.sh

# 给定 Java 安装的根目录

export JAVA_HOME=/usr/java/latest 

# 添加如下环境变量

export HDFS_DATANODE_USER=root

export HDFS_NAMENODE_USER=root

export HDFS_SECONDARYNAMENODE_USER=root

export YARN_RESOURCEMANAGER_USER=root

export YARN_NODEMANAGER_USER=root

 

3、启动HDFS各个进程

4.1、格式化NameNode(作用: 清空NameNode目录下的所有数据,生成目录结构,初始化一些信息文件

)

./hdfs namenode -format

4.2、启动NameNode、DataNode、SecondaryNameNode

./start-dfs.sh

./sbin/hadoop-daemon.sh start namenode

./sbin/hadoop-daemon.sh start datanode

./sbin/hadoop-daemon.sh start secondarynamenode

4.3、访问

http://localhost:9870

9870是http协议的端口号,9000是Rpc tcp协议端口号

 

  1. 启动Yarn进程

4.1、启动ResoureManager、NodeManager

  ./start-yarn.sh

    或

    ./yarn-daemon.sh start resouremanager

./yarn-daemon.sh start nodemanager

4.2、访问

http://localhost:8080

注意:8032是RPC tcp协议端口号,8088是Http协议端口号