windows下搭建spark测试环境
在windows 环境中搭建简单的基于hadoop 的spark 环境,进行本地化测试。
第一步,安装Python环境
本地python版本:
Python 3.7.4 (default, Aug 9 2019, 18:34:13) [MSC v.1915 64 bit (AMD64)] :: Anaconda, Inc. on win32
第二步,安装Java 环境
我的环境为
C:>java -version
java version "1.8.0_181"
Java(TM) SE Runtime Environment (build 1.8.0_181-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.181-b13, mixed mode)
第三步:下载spark
- 下载Spark2.2.0,注意与操作系统版本一致
- 下载地址为:http://spark.apache.org/downloads.html
请注意:选择了spark版本后会出现一个连接,如下图红色区域,点击此连接进入下一个页面,进行下载文件。
第四步:安装Spark
- 只需解压程序包,并拷贝至存放路径,注意安装路径中的文件夹名称不要存在空格
配置环境变量
- 配置系统变量PATH,添加解压后Spark 目录下面的bin 和sbin 两个目录到PATH中
配置日志显示级别 (这样使得log日志输出少很多)
- 选择…sparkconf目录下log4j.properties.template,复制为log4j.properties
- 将log4j.properties中,"INFO, console"改为"WARN, console"
第五步:配置Hadoop(这里并不需要配置一个hadoop 伪分布式,仅仅是为spark提供一个hadoop环境模块而已)
下载地址为:https://github.com/LemenChao/Introduction-to-Data-Science/blob/master/Hadoop/hadoop.dll-and-winutils.exe-for-hadoop2.7.3-on-windows_X64-master.zip
安装
只需解压程序包,并拷贝至存放路径,注意安装路径中的文件夹名称不要存在空格
配置环境变量
- 增加用户变量HADOOP_HOME,值是下载的zip包解压的目录,然后在系统变量path里增加$HADOOP_HOMEbin (此步骤如果没有,则运行spark时会抛出Failed to locate the winutils binary in the hadoop binary path
java.io.IOException: Could not locate executable nullbinwinutils.exe in the Hadoop binaries 异常,因为运行环境需要根据HADOOP_HOME找到winutils.exe,由于win机器并没有配置该环境变量,所以程序报 nullbinwinutils.exe
) - 配置系统变量PATH,添加Hadoop解压后的bin 路径 如c:/hadoop/bin到Path中
到此安装完毕,本地具有了一个基础Spark版本
如何测试
方法一:测试spark-shell
在cmd中输入spark-shell,查看Spark版本信息
方法二:测试 pyspark
在cmd中输入pyspark,查看Pyspark版本信息
方法三:运行自带的Spark example测序
打开cmd,输入spark-submit --class org.apache.spark.examples.SparkPi --master local [spark exmple 路径]
比如我的路径下,命令为(此example为计算pi值)
spark-submit --class org.apache.spark.examples.SparkPi --master local D:toolsbigdataspark243examplesjarsspark-examples_2.11-2.4.3.jar
- Http协议中的数据传送之多重表单提交--multipart/form-data
- 另类大数据:中国有嘻哈的rapper们都在唱些什么?
- jquery属性值选择器
- sqlserver 2000/2005 Ambiguous column error错误解决办法
- jquery 层级选择器
- Twitter发布基于组件的轻量级JavaScript框架——Flight
- jquery的基本选择器
- WordPress 路径相关函数总结(一):站点路径相关函数
- 修复Visual Studio 2010 SP1的Toolbox导致的VS不可用
- 破解Excel 密码保护
- 配置Subversion
- WordPress 路径相关函数总结(二):主题路径相关函数
- ASP.NET 2.0 中 Web 事件
- Visual Studio 必备可视化插件推荐
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- VMware下安装CentOS
- leetcode多线程之按序打印
- 表格的实现
- 使用 Node.js 定制你的技术雷达:中篇
- 数据库PostrageSQL-在Windows上从源代码安装
- Redis的过期策略和内存淘汰策略及LRU算法详解
- 群晖Docker安装GitLab及腾讯企业邮件配置踩坑记录
- 基于docker搭建DNSmasq
- Django-admin配置和显示图标
- redis学习(八)
- 【剑指Offer】打印从1到最大的n位数
- 面试题-List之ArrayList、Vector、SynchronizedList、CopyOnWriteArrayList
- 面试题-JAVA设计模式之单例模式的5种实现方式
- 面试题-JAVA中的深拷贝、浅拷贝原理及实现
- Cross-Origin Resource Sharing (CORS)-跨域