浅谈Scala在大数据处理方面的优势

随着大数据应用得日益广泛，与大数据相关的话题也越来越被大家所热议。在IT界，大数据同样是热门。作为学生党的我，最近也在研究关于大数据的内容。作为一个技术迷，总是会想尝试一些新鲜的东西。前一段时间学习了Hadoop之后，又想开始体验Spark。那么现在就讨论一下关于Spark的话题。

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。它立足于内存计算，从多迭代批量处理出发，兼收并蓄数据仓库、流处理和图计算等多种计算范式，是罕见的全能选手。就大数据集而言，对典型的迭代机器学习、即席查询（ad-hoc query）、图计算等应用，Spark版本比基于MapReduce、Hive和Pregel的实现快上十倍到百倍。其中内存计算、数据本地性（locality）和传输优化、调度优化等该居首功，也与设计伊始即秉持的轻量理念不无关系。

那么，天下武功，唯快不破，看到这里当然是以一种很激动的心情想要去学习它了。那么问题也来了，通过百度等各种小道消息打听到，Spark是采用Scala语言设计的，要想学好Spark，Scala这一关必须是要过的，并且像Twitter、Linkedin等这些公司都在用。于是，还能怎么办，学呗。。。

于是，就愉快的开始了Scala之旅，嘿嘿，然后就没有然后了。看了Scala前面的内容还好，看到后面真的是想吐血了，简直是受不了这种编写方式，不仅编译速度慢，而且编写代码过于随意、灵活，完全无法驾驭。于是，进行了内心的各种挣扎，并且还被实验室的几个研究生学长踏雪了一番，我也不能坐以待毙了，因此，我再一次选择了强大的网络，打开搜索引擎，然后查看各种八卦与新闻。以下是搜索到的各种观点。

我想大部分应用开发程序员，最关键是看有什么类库合适的方便特定领域的应用开发。就像ruby有rails做web开发，你可以去论证ruby优缺点，但实际上应用开发效率提升很大程度上依靠类库。

现在Spark是大数据领域的杀手级应用框架，BAT，我们现在几个领域巨头的客户(有保密协议不方便透露)都全面使用Spark了，这个时候再谈Scala适不适合大数据开发其实意义不大。因为大家比的不只是编程语言，而是构建在这个编程语言之上的类库、社区和生态圈(包括文档和数据、衍生类库、商业技术支持、成熟产品等等)。

那么反过来问，为什么Spark会选择Scala可能更有意义一点。Spark主创Matei在不同场合回答两次这个问题，思考的点稍微不一样，但重点是一样的，很适合回答题主的问题。总结来说最主要有三点：

1. API能做得优雅; 这是框架设计师第一个要考虑的问题，框架的用户是应用开发程序员，API是否优雅直接影响用户体验。

2. 能融合到Hadoop生态圈，要用JVM语言; Hadoop现在是大数据事实标准，Spark并不是要取代Hadoop，而是要完善Hadoop生态。JVM语言大部分可能会想到Java，但Java做出来的API太丑，或者想实现一个优雅的API太费劲。

3. 速度要快; Scala是静态编译的，所以和JRuby,Groovy比起来速度会快很多，非常接近Java。

关于Scala性能的问题，主要分两种情况，

1. Scala的基准性能很接近Java，但确实没有Java好。但很多任务的单次执行的，性能损失在毫秒级不是什么问题；

2. 在大数据计算次数很多的情况下，我们全部写成命令式，而且还要考虑GC，JIT等基于JVM特性的优化。

Scala很难是个很含糊的问题，关键是要看你想达到什么目的。

我们培训客户做Spark开发，基本上一两个星期就可以独立工作了。

当然师傅领进门，修行靠个人，一两个星期能独立工作不代表能马上成为Scala或Spark专家。

这里回答主要针对大数据产品应用开发，不是大数据分析。大数据分析是个更泛的话题，包括大数据分析实验和大数据分析产品等。实验关心建模和快速试不同方式，产品关心稳定、可拓展性。大数据分析实验首选R（SAS），python和Matlab, 通常只拿真实数据的一小部分，在一个性能很好的单机上试各种想法。Scala目前在大数据分析实验上没有太多优势，不过现在有人在做R语言的Scala实现，可以无缝和Spark等大数据平台做衔接。当然现在也已经有SparkR了，可能用R和Spark做交互。

Scala是一门现代的多范式编程语言，设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala允许用户使用命令和函数范式编写代码。Scala运行在Java虚拟机之上，可以直接调用Java类库。对于新手来说，Scala相对比较复杂，其看起来灵活的语法并不容易掌握，但是对于熟悉Scala的用户来说，Scala是一把利器，它提供了许多独特的语言机制，可以以库的形式轻易无缝添加新的语言结构。

在大数据和机器学习领域，很多开发者都有Python/R/Matlab语言的背景，相比与Java或者C++，Scala的语法更容易掌握。从以往的经验来看，只要掌握基本的集合API以及lambda，一个没有经验的新员工就可以快速上手处理数据。像Breeze、ScalaLab和BIDMach这样的类库都通过操作符重写模仿了一些流行工具的语法以及其它的一些语法糖，简单并且容易使用。另外，Scala的性能比传统的Python或者R语言更好。

由于Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序，所以Scala可以和大数据相关的基于JVM的系统很好的集成，比如基于JVM类库的框架Scalding（Cascading）、Summingbird（Scalding和Storm）、Scrunch（Crunch）、Flink（Java编写并有Scala的API），本身使用Scale开发的系统Spark、Kafka。另外，很多数据存储解决方案都支持JVM语言，比如Cassandra、HBase、Voldemort和Datomic。

函数编程范式更适合用于Map/Reduce和大数据模型，它摒弃了数据与状态的计算模型，着眼于函数本身，而非执行的过程的数据和状态的处理。函数范式逻辑清晰、简单，非常适合用于处理基于不变数据的批量处理工作，这些工作基本都是通过map和reduce操作转换数据后，生成新的数据副本，然后再进行处理。而大多数的Scala数据框架都能够把Scala数据集合API和抽象数据类型相统一，比如Scalding中的TypedPipe与Spark中的RDD都有相同的方法，包括map、flatMap、filter、reduce、fold和groupBy，这样使用Scala来处理就更为方便。开发者只需要学习标准集合就可以迅速上手其它工具包。另外，很多的类库都参考了范畴论中的一些设计，它们通过使用semigroup、monoid、group标识来保证分布式操作的正确性。