14.1 Apache Spark 简介快速入门

“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新

本节主要内容：

14.1.1 速度

百倍的运行速度。

Spark使用先进的DAG调度系统，查询优化器与物理执行引擎，实现了批处理与流处理的高性能。

df = spark.read.json("logs.json") df.where("age > 21")   .select("name.first").show()

支持的开发语言：Scala、Java、Python、R语言、SQL

Spark是大规模数据处理的统一分析引擎。

Spark顶层架构

Spark 保护的主要模块有四部分 Spark SQL，Spark Streaming，MLlib（机器学习），GraphX（图计算）。

使用Spark开发的应用程序，可以在多处运行。支持Spark应用发布的有：

支持多中数据源 HDFS, Apache Cassandra, Apache HBase, Apache Hive, 关系型数据库，以及数百个其他数据源。

本节完成

长按关注从入门到精通

源码获取 https://github.com/wangxiaoleiAI/big-data