Flink DataSet 简介
所属分类 flink
浏览量 859
DataSet Api 批处理
数据转换成DataSet数据集,并行分布在集群节点上
对DataSet数据集进行各种转换操作(map filter等)
DataSink 将结果数据集输出到外部系统
InputFormat
OutFormat
Function
Operator
程序数据源输入(Data Sources)
基于文件
readTextFile(path)
TextInputFormat 逐行读取文件 返回string
readTextFileWithValue(path)
TextValueInputFormat 逐行读取文件,返回 StringValues 返回 StringValues 是可变字符串
readCsvFile(path)
CsvInputFormat 返回元组,case class 对象或 POJO 数据集
readFileOfPrimitives(path, delimiter)
PrimitiveInputFormat
readSequenceFile(Key, Value, path)
SequenceFileInputFormat
基于集合
fromCollection(Iterable)
fromCollection(Iterator)
fromElements(...)
fromParallelCollection(SplittableIterator)
generateSequence(from, to)
通用
readFile(inputFormat, path)
createInput(inputFormat)
程序数据输出(Data Sinks)
writeAsText
writeAsCsv
print
write
output
转换操作(Transformations)
Map
FlatMap 生成零个,一个或多个
MapPartition
Filter
Reduce
ReduceGroup
Aggregate 将一组值聚合为单个值 可以认为是内置的reduce函数
Distinct
Join
OuterJoin
CoGroup
Cross 构建两个输入的笛卡尔积/交叉乘积
Union
Rebalance
Hash-Partition
Range-Partition
Custom Partitioning
Sort Partition
First-n
groupBy("key")
groupBy(0, 1)
groupBy("a", "b")
上一篇
下一篇
java正则表达式实例之简单分词
git reset 和 diff 使用说明
git工作区域及常用命令
Flink DataSet 数据源示例
Flink DataSet 数据输出 示例
Flink DataSet 数据转换示例