Cache Persist 和 Checkpoint 的区别
Cache 和 Persist 只能 保存在本地内存和磁盘中
Checkpoint 保存数据到 HDFS 上
Cache Persist 在程序结束被清除 或者 调用 unpersist 清除
Checkpoint 在程序结束后依然存在
SparkContext.setCheckpointDir("HDFS目录")
RDD.checkpoint
频繁使用且重要的数据,先做缓存/持久化,再做 checkpint 操作