Spark 编程指南

发表于 2016-12-24 | 分类于 Spark |

在一个较高的水平上，每一个 Spark 应用程序由一个在集群上运行着用户的 main 函数和执行各种并行操作的 driver program（驱动程序）组成。Spark 提供的主要抽象是一个弹性分布式数据集（RDD），它是可以执行并行操作且跨集群节点的元素的集合。RDD 可以从一个 Hadoop 文件系统（或者任何其它 Hadoop 支持的文件系统），或者一个在 driver program（驱动程序）中已存在的 Scala 集合，以及通过 transforming（转换）来创建一个 RDD。用户为了让它在整个并行操作中更高效的重用，也许会让 Spark persist（持久化）一个 RDD 到内存中。最后，RDD 会自动的从节点故障中恢复。

在 Spark 中的第二个抽象是能够用于并行操作的 shared variables（共享变量），默认情况下，当 Spark 的一个函数作为一组不同节点上的任务运行时，它将每一个变量的副本应用到每一个任务的函数中去。有时候，一个变量需要在整个任务中，或者在任务和 driver program（驱动程序）之间来共享。Spark 支持两种类型的共享变量 : broadcast variables（广播变量），它可以用于在所有节点上缓存一个值，和 accumulators（累加器），他是一个只能被 “added（增加）” 的变量，例如 counters 和 sums。

本指南介绍了每一种 Spark 所支持的语言的特性。如果您启动 Spark 的交互式 shell - 针对 Scala shell 使用 bin/spark-shell 或者针对 Python 使用 bin/pyspark 是很容易来学习的。

原文链接 : http://spark.apache.org/docs/latest/programming-guide.html

阅读全文 »

Spark on Mesos

发表于 2016-12-24 | 分类于 Spark |

Spark 可以在 Apache Mesos 管理的硬件集群上运行。

使用 Mesos 部署 Spark 的优点包括：

Spark 和其他框架 frameworks 之间的动态分区
Spark 的多个实例之间的可扩展分区

阅读全文 »

Spark RDD API详解(一) Map和Reduce

发表于 2016-12-24 | 分类于 Spark |

RDD是什么？

RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布在不同的机器上，同时可以被并行处理。因此，Spark应用程序所做的无非是把需要处理的数据转换为RDD，然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分，将介绍Spark RDD中与Map和Reduce相关的API中。

阅读全文 »

Spark 监控

发表于 2016-12-24 | 分类于 Spark |

有几种方法可以监视 Spark 应用 : Web UI，metrics 和其他扩展工具。

Web 接口

每一个 SparkContext 启动一个 web UI，默认情况下使用端口 4040，可以显示关于运行程序的有用信息。这包括 :

调度器阶段和任务的列表　　
RDD 大小和内存使用的概要信息　　
环境信息　
正在运行的程序的信息

您只需打开 http://\:4040 的 web 浏览器就可以访问。如果在同一主机上运行多个 SparkContexts，他们将开始连续绑定到端口 4040（4041、4042、等）。

注意，默认情况下这些信息仅在有程序的执行时显示。你可以在启动 Spark 之前修改配置，设置 spark.eventLog.enabled 为 true。让 Spark 记录并持久化存储 Spark 事件使其可以在 UI 中显示。

阅读全文 »

Spark 概述

发表于 2016-12-24 | 分类于 Spark |

Apache Spark 是一个快速的、多用途的集群计算系统。在 Java，Scala，Python 和 R 语言以及一个支持常见的图计算的经过优化的引擎中提供了高级 API。它还支持一组丰富的高级工具，包括用于 SQL 和结构化数据处理的 Spark SQL，用于机器学习的 MLlib，用于图形处理的 GraphX 以及 Spark Streaming。

阅读全文 »