spark 原理及特点
所属分类 spark
浏览量 900
Spark Core
spark sql
spark streaming
spark特点
Spark Core
spark 基础配置
sparkConf
sparkContext spark应用程序入口 提交和执行
sparkRpc 基于netty 分为异步和同步两种方式
listenerBus 事件总线 用于组件间的交换 异步调用
sparkEnv
度量系统
存储系统
内存和磁盘
内存不足时将数据写入磁盘
调度系统
DAGScheduler和TaskScheduler
DAGScheduler
把一个Job根据RDD间的依赖关系,划分为多个Stage
对于划分后的每个Stage都抽象为一个或多个Task组成的任务集
并交给TaskScheduler来进行进一步的任务调度
TaskScheduler 负责对每个具体的Task进行调度
调度算法
FIFO调度 先进先出, 默认
FAIR调度 支持将作业分组到池中,并为每个池设置不同的调度权重
spark sql
SQL 降低使用门槛
提供两种抽象的数据集合 DataFrame 和 DataSet
DataFrame
结构化数据的抽象,可以理解为spark中的表
相较于RDD多了数据的表结构信息(schema)
DataFrame = Data + schema
RDD 弹性分布式数据集
DataFrame 提供了比RDD更丰富的算子,同时提升了数据的执行效率
DataSet
具有RDD强类型的优点 和 Spark SQL优化后执行的优点
DataSet可以由jvm对象构建,然后使用map,filter,flatmap等操作
spark streaming
流数据处理
spark特点
计算速度快 将任务构建成DAG RDD 内存计算
易于使用 大量算子
通用的大数据解决方案 批处理 流处理支持 SQL 机器学习 图计算
支持多种资源管理模式
local standalone yarn等
社区支持 生态圈丰富,迭代更新快
上一篇
下一篇
Flink 知识点汇总
Flink Watermark 机制
Spark核心设计思想
spark运行模式及集群角色
spark作业运行流程
Zeppelin简介