首页

2013 年 谷歌 Dremel 掀起了交互式查询的风潮
Cloudera  Impala
Hadoop 发行商 MapR  Apache Drill
Doris是一个MPP的OLAP系统,主要整合了Google Mesa(数据模型),Apache Impala(MPP Query Engine)和Apache ORCFile (存储格式,编码和压缩) 的技术
OLAP 按数据存储格式分
ROLAP(Relational OLAP)  基于多维数组的存储模型,预计算,以空间换效率  Kylin Druid
MOLAP(Multi-dimensional OLAP) 基于关系模型进行存储数据,不需要预计算,按需即时查询   Presto impala
HOLAP(Hybrid OLAP)
2013 年  Hive 慢不好用 
谷歌的 Dremel 刚出来没多久,掀起了交互式查询的风潮
Cloudera  Impala
Hadoop 发行商 MapR  Apache Drill
2006年女足战胜东道主澳大利亚夺冠,
随后,上证指数从1600点涨到6100点,这次能涨多少 ?
Spark 运行模式
local 本地模式  local 单线程 和 local-cluster 多线程
standalone 独立集群模式 ,使用自带的集群管理器 , 典型的 Mater/slave 模式
standalone-HA   独立集群高可用模式  ,基于zk 搭建高可用,避免 Master 单点故障
on yarn   运行在 yarn 集群之上,由 yarn 负责资源管理,Spark 负责任务调度和计算 ,计算资源按需伸缩,集群利用率高,共享底层存储,避免数据跨集群迁移
Flink 分布式快照 容错机制优点
低延迟 高吞吐量 与业务逻辑的隔离 错误恢复代价低
知识管理的核心就是在有限的信息容量里装入尽可能多的信息,其实就是输入信息的压缩与解压
Flink基于分布式快照与可部分重发的数据源实现容错
可自定义对整个Job进行快照的时间间隔,当任务失败时,将整个Job恢复到最近一次快照,并从数据源重发快照之后的数据
Flink的分布式快照实现借鉴了Chandy和Lamport在1985年发表的一篇关于分布式快照的论文 
按照用户自定义的分布式快照间隔时间,定时在所有数据源中插入一种特殊的快照标记消息,
这些快照标记消息和其他消息一样在DAG中流动,但是不会被用户定义的业务逻辑所处理,
每一个快照标记消息都将其所在的数据流分成两部分 本次快照数据和下次快照数据
与 SparkSQL 相比,Presto 是一个常驻的 MPP 架构的 SQL 查询引擎,
避免了 Spark Context 启动以及资源申请的开销,端到端延迟较低

第一页 上一页 下一页 最后一页