首页  

spark 原理及特点     所属分类 spark 浏览量 764
Spark Core
spark sql
spark streaming
spark特点


Spark Core spark 基础配置 sparkConf sparkContext spark应用程序入口 提交和执行 sparkRpc 基于netty 分为异步和同步两种方式 listenerBus 事件总线 用于组件间的交换 异步调用 sparkEnv 度量系统 存储系统 内存和磁盘 内存不足时将数据写入磁盘 调度系统 DAGScheduler和TaskScheduler DAGScheduler 把一个Job根据RDD间的依赖关系,划分为多个Stage 对于划分后的每个Stage都抽象为一个或多个Task组成的任务集 并交给TaskScheduler来进行进一步的任务调度 TaskScheduler 负责对每个具体的Task进行调度 调度算法 FIFO调度 先进先出, 默认 FAIR调度 支持将作业分组到池中,并为每个池设置不同的调度权重
spark sql SQL 降低使用门槛 提供两种抽象的数据集合 DataFrame 和 DataSet DataFrame 结构化数据的抽象,可以理解为spark中的表 相较于RDD多了数据的表结构信息(schema) DataFrame = Data + schema RDD 弹性分布式数据集 DataFrame 提供了比RDD更丰富的算子,同时提升了数据的执行效率 DataSet 具有RDD强类型的优点 和 Spark SQL优化后执行的优点 DataSet可以由jvm对象构建,然后使用map,filter,flatmap等操作
spark streaming 流数据处理
spark特点 计算速度快 将任务构建成DAG RDD 内存计算 易于使用 大量算子 通用的大数据解决方案 批处理 流处理支持 SQL 机器学习 图计算 支持多种资源管理模式 local standalone yarn等 社区支持 生态圈丰富,迭代更新快

上一篇     下一篇
Flink 知识点汇总

Flink Watermark 机制

Spark核心设计思想

spark运行模式及集群角色

spark作业运行流程

Zeppelin简介