02.spark-spark分布式安装

时间:2021-08-11
本文章向大家介绍02.spark-spark分布式安装,主要包括02.spark-spark分布式安装使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

1.规划  三台服务器

s101 //master(进程)
s102 ~ s104 //worker(进程)

2.在每个主机上分别安装spark


3.配置spark(每个节点进行相同操作)
3.1)在spark的conf目录下创建hadoop的core-site.xml和hdfs-site.xml软连接
$>xcall.sh ln -s /soft/hadoop/etc/hadoop/core-site.xml /soft/spark/conf/core-site.xml
$>xcall.sh ln -s /soft/hadoop/etc/hadoop/hdfs-site.xml /soft/spark/conf/hdfs-site.xml

3.2)配置JAVA_HOME环境变量
$>cd /soft/spark/conf
$>cp spark-env.sh.template spark-env.sh
$>nano spark-env.sh
...
export JAVA_HOME=/soft/jdk
...

2)添加JAVA_HOME环境变量

[centos@s101 /soft/spark/sbin]$nano spark-config.sh

#java JDK
export JAVA_HOME=/soft/jdk


3.3)修改slaves文件
$>cd /soft/spark/conf
$>cp slaves.template slaves
$>nano slaves
s102
s103
s104

3.4)分发配置文件
$>xsync.sh spark-env.sh
$>xsync.sh slaves

4.启动spark集群
4.1)启动hadoop集群
xzk.sh start //启动zk
start-dfs.sh //启动hdfs
4.2)启动spark
$>cd /soft/spark/sbin
$>./start-all.sh

5.webui
http://s101:8080

5上传本地文件到hdfs

[centos@s101 /home/centos]$hadoop fs -mkdir /user/centos/download
查看当前目录信息
        hdfs dfs -ls /
        
上传文件
        hdfs dfs -put /本地路径 /hdfs路径


6.启动spark shell,连接到spark集群
$>spark-shell --master spark://s101:7077
$>sc.textFile("/user/centos/data/1.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect()

http://s101:8080 查看执行情况

原文地址:https://www.cnblogs.com/star521/p/15130053.html