首页   快速返回

大数据SQL引擎     所属分类 bigdata
Spark Impala Hive Presto

Phoenix Drill  Druid Kylin 


Impala Presto  适合BI类查询
Hive Spark 适用于长时间分析查询

Hive      把sql解析后用MapReduce跑
SparkSQL  把sql解析后用Spark跑,比hive快点
Phoenix   绕过MapReduce运行在HBase上 
Drill/Impala/Presto    交互式查询 类似google Dremel 
Druid/Kylin           olap系统

关系型数据库 mysql等 ,查询引擎和存储紧耦合 ,有助于性能优化

大数据SQL引擎一般独立于数据存储系统,更灵活

在Dremel论文发表之后,出现了一批基于MPP架构的SQL-on-Hadoop(HDFS)查询引擎,
典型代表有Apache Impala、Presto、Apache Drill、Apache HAWQ等

对于修改的实时性要求比较高的 
可以考虑 Kudu 或者 传统的 MPP数据库 ,例如GreenPlum

sql  ad-hoc查询引擎

Greenplum
Analytic Database platform built on PostgreSQL. Full name is Pivotal Greenplum Database 

Presto
FaceBook 2013年11月份开源 ,分布式SQL查询引擎,用来专门进行高速、实时的数据分析。
支持标准的ANSI SQL,包括复杂查询、聚合(aggregation)、连接(join)和窗口函数(window functions)。
Presto设计了一个简单的数据存储的抽象层,在不同数据存储系统(包括HBase、HDFS等)之上都可以使用SQL进行查询。


Stinger
Hortonworks开源的一个实时类SQL即时查询系统,Stinger采用Tez
Tez是Hortonworks开源的一个DAG计算框架,可以理解为Google Pregel的开源实现
Tez只能运行在YARN上

MPP架构系统(Presto/Impala/SparkSQL/Drill等)
MPP (Massively Parallel Processing)




Impala: A Modern, Open-Source SQL Engine for Hadoop
http://cidrdb.org/cidr2015/Papers/CIDR15_Paper28.pdf

Dremel: Interactive Analysis of Web-Scale Datasets
http://vldb.org/pvldb/vldb2010/pvldb_vol3/R29.pdf

上一篇     下一篇
git查看某个文件的变更记录

eclipse关闭验证

约瑟夫环java实现

git diff 命令

git reset 版本回退

redis集群方案