文章详情|spark map和mapPartitions

spark map和mapPartitions 所属分类 spark 浏览量 934

Map 分区内数据逐个执行   
mapPartitions  以分区为单位进行批处理

MapPartitions 需要传递一个迭代器，返回一个迭代器，元素可以增加或减少

val sparkconf = new SparkConf().setMaster("local[*]").setAppName("test")
var sc =  new SparkContext(sparkconf);
val rdd = sc.makeRDD(List(1,2,3,4,5,6),1)
val value = rdd.map(num=>{
  println(">>>>"+num);
  num
})
val value2 = value.map(num=>{
  println("-----"+num);
  num
})
value2.collect()
sc.stop();


拆成2个分区执行
val rdd = sc.makeRDD(List(1,2,3,4,5,6),2)

两个分区并行执行 


mapPartitions
val rdd = sc.makeRDD(List(1,2,3,4,5,6),2)
val value = rdd.mapPartitions(iter=>{
  println(">>>>");
  iter
})
value.collect()
    
    
mapPartitionsWithIndex
val rdd = sc.makeRDD(List(1,2,3,4,5,6),2)
val value = rdd.mapPartitionsWithIndex((index,iter)=>{
  println(">>>> index="+index);
  iter
})
value.collect()

计算每个分区的最大值

val rdd = sc.makeRDD(List(1,2,3,4,5,6),2)
val value = rdd.mapPartitions(iter=>{
  List(iter.max).iterator
})
value.collect().foreach(println)
    
    
val rdd = sc.makeRDD(List(1,2,3,4,5,6),2)
val value = rdd.mapPartitionsWithIndex((index,iter)=>{
  List(index+"_"+iter.max).iterator
})
value.collect().foreach(println)

SparkSQL join的三种实现方式

Spark知识点小结

Flink核心技术要点

spark map算子各种写法

idea maven 项目 scala代码不会自动编译

spark3 例子