杜龙少(sdvdxl)

Spark基础知识

Word count: 185 / Reading time: 1 min
2016/03/09 Share

Spark基本概念

  • RDD——Resillient Distributed Dataset A Fault-Tolerant Abstraction for In-Memory Cluster Computing弹性分布式数据集
  • Operation——作用于RDD的各种操作分为transformationaction
  • Job——作业一个JOB包含多个RDD及作用于相应RDD上的各种operation
  • Stage——一个作业分为多个阶段
  • Partition——数据分区 一个RDD中的数据可以分成多个不同的区
  • DAG——Directed Acycle graph有向无环图反应RDD之间的依赖关系
  • Narrow dependency——窄依赖RDD依赖于父RDD中固定的data partition
  • Wide Dependency——宽依赖RDD对父RDD中的所有data partition都有依赖
  • Caching Managenment——缓存管理RDD的中间计算结果进行缓存管理以加快整 体的处理速度
CATALOG
  1. 1. Spark 基本概念