sparkSQL和presto比较
所属分类 spark
浏览量 577
都是MPP(massively parallel processing)架构
Presto Impala SparkSQL Drill等
基于内存
spark基于内存和磁盘 超出内存大小后 溢写到磁盘
不同点
presto强调查询,spark sql强调计算
Presto架构简单
coordinator 协调器 执行SQL解析、计划、调度
worker 工作节点 执行物理计划
Spark分层,框架更复杂,基于RDD DAG执行引擎
两者都是内存计算,内存不够时,presto直接OOM,spark会落地磁盘
presto预先申请好CPU和内存,coordinator和worker一直运行
spark任务动态申请资源
与 SparkSQL 相比,Presto 是一个常驻的 MPP 架构的 SQL 查询引擎,
避免了 Spark Context 启动以及资源申请的开销,端到端延迟较低
数据容错
如果单个节点失败或者数据丢失,presto查询失败
spark会根据rdd血缘关系重新计算
优化程序
Presto基于成本的优化器(CBO),速度更快
Spark SQL基于规则的优化(RBO),可在复杂查询上执行更好的操作
Spark 2.2 后 也引入了基于成本的优化(CBO)
上一篇
下一篇
hbase读写流程
主数据简介
数据仓库名词解释
SparkSQL join的三种实现方式
Spark知识点小结
Flink核心技术要点