Cache Persist 和 Checkpoint 的区别 Cache 和 Persist 只能 保存在本地内存和磁盘中 Checkpoint 保存数据到 HDFS 上 Cache Persist 在程序结束被清除 或者 调用 unpersist 清除 Checkpoint 在程序结束后依然存在 SparkContext.setCheckpointDir("HDFS目录") RDD.checkpoint 频繁使用且重要的数据,先做缓存/持久化,再做 checkpint 操作