首页

数据湖以基于 HDFS 存储、或者基于云上的对象存储这种相对低成本、高可用的统一存储系统,替换了原先的底层存储。
可以存储各种原始数据,无需提前进行建模和数据转化,存储成本低且拓展性强
支持半结构化和非结构化的数据
数据更加开放,可以通过各种计算引擎或者分析手段读取数据,支持丰富的计算场景,灵活性强且易于启动。
一些问题
数据链路长/组件多导致出错率高、数据可靠性差
各个系统间不断的数据迁移同步给数据一致性和时效性带来挑战
湖里的数据杂乱无章,未经优化直接访问查询会出现性能问题
整体系统的复杂性导致企业建设和维护成本高等
2013 年 谷歌 Dremel 掀起了交互式查询的风潮
Cloudera  Impala
Hadoop 发行商 MapR  Apache Drill
Doris是一个MPP的OLAP系统,主要整合了Google Mesa(数据模型),Apache Impala(MPP Query Engine)和Apache ORCFile (存储格式,编码和压缩) 的技术
OLAP 按数据存储格式分
ROLAP(Relational OLAP)  基于多维数组的存储模型,预计算,以空间换效率  Kylin Druid
MOLAP(Multi-dimensional OLAP) 基于关系模型进行存储数据,不需要预计算,按需即时查询   Presto impala
HOLAP(Hybrid OLAP)
2013 年  Hive 慢不好用 
谷歌的 Dremel 刚出来没多久,掀起了交互式查询的风潮
Cloudera  Impala
Hadoop 发行商 MapR  Apache Drill
2006年女足战胜东道主澳大利亚夺冠,
随后,上证指数从1600点涨到6100点,这次能涨多少 ?
Spark 运行模式
local 本地模式  local 单线程 和 local-cluster 多线程
standalone 独立集群模式 ,使用自带的集群管理器 , 典型的 Mater/slave 模式
standalone-HA   独立集群高可用模式  ,基于zk 搭建高可用,避免 Master 单点故障
on yarn   运行在 yarn 集群之上,由 yarn 负责资源管理,Spark 负责任务调度和计算 ,计算资源按需伸缩,集群利用率高,共享底层存储,避免数据跨集群迁移
Flink 分布式快照 容错机制优点
低延迟 高吞吐量 与业务逻辑的隔离 错误恢复代价低
知识管理的核心就是在有限的信息容量里装入尽可能多的信息,其实就是输入信息的压缩与解压
Flink基于分布式快照与可部分重发的数据源实现容错
可自定义对整个Job进行快照的时间间隔,当任务失败时,将整个Job恢复到最近一次快照,并从数据源重发快照之后的数据
Flink的分布式快照实现借鉴了Chandy和Lamport在1985年发表的一篇关于分布式快照的论文 
按照用户自定义的分布式快照间隔时间,定时在所有数据源中插入一种特殊的快照标记消息,
这些快照标记消息和其他消息一样在DAG中流动,但是不会被用户定义的业务逻辑所处理,
每一个快照标记消息都将其所在的数据流分成两部分 本次快照数据和下次快照数据

第一页 上一页 下一页 最后一页