杜龙少(sdvdxl)

Spark基础知识

字数统计: 176阅读时长: 1 min
2016/03/09 Share
(文章比较久了可能已经过时)

Spark基本概念

  • RDD——Resillient Distributed Dataset A Fault-Tolerant Abstraction for In-Memory Cluster Computing弹性分布式数据集。
  • Operation——作用于RDD的各种操作分为transformation和action。
  • Job——作业,一个JOB包含多个RDD及作用于相应RDD上的各种operation。
  • Stage——一个作业分为多个阶段。
  • Partition——数据分区, 一个RDD中的数据可以分成多个不同的区。
  • DAG——Directed Acycle graph,有向无环图,反应RDD之间的依赖关系。
  • Narrow dependency——窄依赖,子RDD依赖于父RDD中固定的data partition。
  • Wide Dependency——宽依赖,子RDD对父RDD中的所有data partition都有依赖。
  • Caching Managenment——缓存管理,对RDD的中间计算结果进行缓存管理以加快整 体的处理速度。

原文作者:杜龙少(sdvdxl)

原文链接:https://todu.top/posts/20157/

发表日期:2016-03-09 13:59:50

更新日期:2021-01-20 23:30:16

版权声明:本文采用知识共享署名-非商业性使用 4.0 国际许可协议进行许可

CATALOG
  1. 1. Spark基本概念