北冥有鱼


  • 首页

  • 分类

  • 归档

  • 标签

  • 搜索

Spark 编程指南

发表于 2016-12-24 | 分类于 Spark |

在一个较高的水平上,每一个 Spark 应用程序由一个在集群上运行着用户的 main 函数和执行各种并行操作的 driver program(驱动程序)组成。Spark 提供的主要抽象是一个弹性分布式数据集(RDD),它是可以执行并行操作且跨集群节点的元素的集合。RDD 可以从一个 Hadoop 文件系统(或者任何其它 Hadoop 支持的文件系统),或者一个在 driver program(驱动程序)中已存在的 Scala 集合,以及通过 transforming(转换)来创建一个 RDD。用户为了让它在整个并行操作中更高效的重用,也许会让 Spark persist(持久化)一个 RDD 到内存中。最后,RDD 会自动的从节点故障中恢复。

在 Spark 中的第二个抽象是能够用于并行操作的 shared variables(共享变量),默认情况下,当 Spark 的一个函数作为一组不同节点上的任务运行时,它将每一个变量的副本应用到每一个任务的函数中去。有时候,一个变量需要在整个任务中,或者在任务和 driver program(驱动程序)之间来共享。Spark 支持两种类型的共享变量 : broadcast variables(广播变量),它可以用于在所有节点上缓存一个值,和 accumulators(累加器),他是一个只能被 “added(增加)” 的变量,例如 counters 和 sums。

本指南介绍了每一种 Spark 所支持的语言的特性。如果您启动 Spark 的交互式 shell - 针对 Scala shell 使用 bin/spark-shell 或者针对 Python 使用 bin/pyspark 是很容易来学习的。

原文链接 : http://spark.apache.org/docs/latest/programming-guide.html

阅读全文 »

Spark on Mesos

发表于 2016-12-24 | 分类于 Spark |

Spark 可以在 Apache Mesos 管理的硬件集群上运行。

使用 Mesos 部署 Spark 的优点包括:

  • Spark 和 其他框架 frameworks 之间的动态分区
  • Spark 的多个实例之间的可扩展分区
阅读全文 »

Spark RDD API详解(一) Map和Reduce

发表于 2016-12-24 | 分类于 Spark |

RDD是什么?

RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分,将介绍Spark RDD中与Map和Reduce相关的API中。

阅读全文 »

Spark 监控

发表于 2016-12-24 | 分类于 Spark |

有几种方法可以监视 Spark 应用 : Web UI,metrics 和其他扩展工具。

Web 接口

每一个 SparkContext 启动一个 web UI,默认情况下使用端口 4040,可以显示关于运行程序的有用信息。这包括 :

  • 调度器阶段和任务的列表   
  • RDD 大小和内存使用的概要信息   
  • 环境信息 
  • 正在运行的程序的信息

您只需打开 http://\:4040 的 web 浏览器就可以访问。如果在同一主机上运行多个 SparkContexts,他们将开始连续绑定到端口 4040(4041、4042、等)。

注意,默认情况下这些信息仅在有程序的执行时显示。你可以在启动 Spark 之前修改配置,设置 spark.eventLog.enabled 为 true。让 Spark 记录并持久化存储 Spark 事件使其可以在 UI 中显示。

阅读全文 »

Spark 概述

发表于 2016-12-24 | 分类于 Spark |

Apache Spark 是一个快速的、多用途的集群计算系统。在 Java,Scala,Python 和 R 语言以及一个支持常见的图计算的经过优化的引擎中提供了高级 API。它还支持一组丰富的高级工具,包括用于 SQL 和结构化数据处理的 Spark SQL,用于机器学习的 MLlib,用于图形处理的 GraphX 以及 Spark Streaming。

阅读全文 »
1…345…17
IAN

IAN

啊~ 五环

85 日志
21 分类
18 标签
GitHub Twitter 微博
© 2016 - 2017 IAN
由 Hexo 强力驱动
主题 - NexT.Mist
本站访问数人次 本站访问总量次