14.1 Apache Spark 简介快速入门
时间:2022-06-22
本文章向大家介绍14.1 Apache Spark 简介快速入门,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
14.1 Apache Spark 简介快速入门
“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新
本节主要内容:
- 速度
- 简单易用
- Spark架构
- 到处运行
- 多种数据源
14.1.1 速度
百倍的运行速度。
Spark使用先进的DAG调度系统,查询优化器与物理执行引擎,实现了批处理与流处理的高性能。
14.1.2 简单易用、支持开发语言丰富
df = spark.read.json("logs.json") df.where("age > 21") .select("name.first").show()
支持的开发语言:Scala、Java、Python、R语言、SQL
14.1.3 Spark架构
Spark是大规模数据处理的统一分析引擎。
Spark顶层架构
Spark 保护的主要模块有四部分 Spark SQL,Spark Streaming,MLlib(机器学习),GraphX(图计算)。
- Spark SQL是处理结构化数据的模块。可以使得开发人员使用SQL语句做数据挖掘。简单、强大。
- Spark Streaming 可以轻松构建可扩展的容错流应用程序。可以实时处理数据,是构建实时大数据处理应用核心。
- MLlib(Machine Learning)是可扩展的机器学习库。聚类、分类等封装好的算法大幅降低机器学习与大数据应用结合的难度。方便、易用,。
- GraphX(graph)用于图像与图像并行计算。
14.1.4 到处运行
使用Spark开发的应用程序,可以在多处运行。 支持Spark应用发布的有:
- Hadoop(hadoop YARN)
- Apache Mesos
- Kubernetes
- standalone(Spark自身的独立部署模式)
14.1.5 多种数据源
支持多中数据源 HDFS, Apache Cassandra, Apache HBase, Apache Hive, 关系型数据库,以及数百个其他数据源。
本节完成
长按关注从入门到精通
源码获取 https://github.com/wangxiaoleiAI/big-data
- 信用卡“坏账”客户分析(二)
- Mac上提升python运算速度-PyPy初体验
- python处理json数据(复杂的json转化成嵌套字典并处理)
- Pointer-network理论及tensorflow实战
- python3 log文件处理获取某天需要的数据
- 实战深度强化学习DQN-理论和实践
- Python 工匠:编写条件分支代码的技巧
- python3 下 Zabbix监控调用graph.get并且下载监控图
- 用R语言复盘美国总统大选结果~
- 最新Apache Spark平台的NLP库,助你轻松搞定自然语言处理任务
- 使用Seq2Seq+attention实现简单的Chatbot
- R语言可视化——用ggplot构造期待已久的雷达图
- 【实战】最新Deep Learning with Keras图书加代码,教你从零开发一个复杂深度学习模型(附下载)
- 基于zabbix 自动抓取每天监控数据!/usr/local/python/bin/python3.5
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- Gin 学习之自定义服务器配置信息
- 经验总结 | 关于 reNgine 自动化网络侦查框架的国内安装与报错的解决方法
- CS学习笔记 | 24、C2lints实例演示
- CS学习笔记 | 23、malleable命令
- ASP.NET Core 基于声明的访问控制到底是什么鬼?
- scATAC-seq建库原理,质控方法和新R包Signac的使用
- R语言可视化学习笔记之ggridges包绘制山峦图
- 06 . ELK Stack + kafka集群
- 使用DockerFile构建运行GoWeb
- windows版gbc:基于enginx的组件服务器系统paas,可用于mixed web与websocket game
- 01 . RPC简介原理及用Go实现一个RPC
- 17 . Go之网络编程
- 01 . Go框架之Beego简介部署及程序流程分析
- 服务器入侵排查流程
- Nginx配置各种响应头防止XSS,点击劫持,frame恶意攻击