首页  

Flink DataSet 简介     所属分类 flink 浏览量 844
DataSet Api 批处理 
数据转换成DataSet数据集,并行分布在集群节点上
对DataSet数据集进行各种转换操作(map filter等)
DataSink 将结果数据集输出到外部系统

InputFormat
OutFormat

Function 
Operator



程序数据源输入(Data Sources) 基于文件 readTextFile(path) TextInputFormat 逐行读取文件 返回string readTextFileWithValue(path) TextValueInputFormat 逐行读取文件,返回 StringValues 返回 StringValues 是可变字符串 readCsvFile(path) CsvInputFormat 返回元组,case class 对象或 POJO 数据集 readFileOfPrimitives(path, delimiter) PrimitiveInputFormat readSequenceFile(Key, Value, path) SequenceFileInputFormat 基于集合 fromCollection(Iterable) fromCollection(Iterator) fromElements(...) fromParallelCollection(SplittableIterator) generateSequence(from, to) 通用 readFile(inputFormat, path) createInput(inputFormat)
程序数据输出(Data Sinks) writeAsText writeAsCsv print write output
转换操作(Transformations) Map FlatMap 生成零个,一个或多个 MapPartition Filter Reduce ReduceGroup Aggregate 将一组值聚合为单个值 可以认为是内置的reduce函数 Distinct Join OuterJoin CoGroup Cross 构建两个输入的笛卡尔积/交叉乘积 Union Rebalance Hash-Partition Range-Partition Custom Partitioning Sort Partition First-n groupBy("key") groupBy(0, 1) groupBy("a", "b")

上一篇     下一篇
java正则表达式实例之简单分词

git reset 和 diff 使用说明

git工作区域及常用命令

Flink DataSet 数据源示例

Flink DataSet 数据输出 示例

Flink DataSet 数据转换示例