RDD 两种依赖关系 宽依赖 wide dependency/shuffle dependency 窄依赖 narrow dependency org.apache.spark.ShuffleDependency org.apache.spark.NarrowDependency 窄依赖 父 RDD 的一个分区只会被子 RDD 的一个分区依赖 一对一 或 多对一 窄依赖的多个分区可以并行计算 窄依赖的一个分区的数据如果丢失只需要重新计算对应的分区 宽依赖 父 RDD 的一个分区会被子 RDD 的多个分区依赖(涉及shuffle) 多对多 必须等到上一阶段计算完成才能计算下一阶段 划分 Stage(阶段)的依据