首页  

spark RDD 窄依赖 和 宽依赖     所属分类 spark 浏览量 676
RDD 两种依赖关系

宽依赖  wide dependency/shuffle dependency
窄依赖  narrow dependency

org.apache.spark.ShuffleDependency
org.apache.spark.NarrowDependency


窄依赖
父 RDD 的一个分区只会被子 RDD 的一个分区依赖
一对一 或 多对一
窄依赖的多个分区可以并行计算
窄依赖的一个分区的数据如果丢失只需要重新计算对应的分区


宽依赖
父 RDD 的一个分区会被子 RDD 的多个分区依赖(涉及shuffle)  
多对多
必须等到上一阶段计算完成才能计算下一阶段
划分 Stage(阶段)的依据

上一篇     下一篇
spark RDD 分组求平均例子

spark RDD 持久化 缓存

spark RDD Checkpoint 容错机制

spark RDD Stage 划分

sbt JVM 参数设置

为何要收集整理创作技术段子