首页

成本低,时间就是你的朋友,否则就是你的敌人
Lakehouse = 云上对象存储 + 湖格式 + 湖管理平台
数据湖以基于 HDFS 存储、或者基于云上的对象存储这种相对低成本、高可用的统一存储系统,替换了原先的底层存储。
可以存储各种原始数据,无需提前进行建模和数据转化,存储成本低且拓展性强
支持半结构化和非结构化的数据
数据更加开放,可以通过各种计算引擎或者分析手段读取数据,支持丰富的计算场景,灵活性强且易于启动。
一些问题
数据链路长/组件多导致出错率高、数据可靠性差
各个系统间不断的数据迁移同步给数据一致性和时效性带来挑战
湖里的数据杂乱无章,未经优化直接访问查询会出现性能问题
整体系统的复杂性导致企业建设和维护成本高等
2013 年 谷歌 Dremel 掀起了交互式查询的风潮
Cloudera  Impala
Hadoop 发行商 MapR  Apache Drill
Doris是一个MPP的OLAP系统,主要整合了Google Mesa(数据模型),Apache Impala(MPP Query Engine)和Apache ORCFile (存储格式,编码和压缩) 的技术
OLAP 按数据存储格式分
ROLAP(Relational OLAP)  基于多维数组的存储模型,预计算,以空间换效率  Kylin Druid
MOLAP(Multi-dimensional OLAP) 基于关系模型进行存储数据,不需要预计算,按需即时查询   Presto impala
HOLAP(Hybrid OLAP)
2013 年  Hive 慢不好用 
谷歌的 Dremel 刚出来没多久,掀起了交互式查询的风潮
Cloudera  Impala
Hadoop 发行商 MapR  Apache Drill
2006年女足战胜东道主澳大利亚夺冠,
随后,上证指数从1600点涨到6100点,这次能涨多少 ?
Spark 运行模式
local 本地模式  local 单线程 和 local-cluster 多线程
standalone 独立集群模式 ,使用自带的集群管理器 , 典型的 Mater/slave 模式
standalone-HA   独立集群高可用模式  ,基于zk 搭建高可用,避免 Master 单点故障
on yarn   运行在 yarn 集群之上,由 yarn 负责资源管理,Spark 负责任务调度和计算 ,计算资源按需伸缩,集群利用率高,共享底层存储,避免数据跨集群迁移
Flink 分布式快照 容错机制优点
低延迟 高吞吐量 与业务逻辑的隔离 错误恢复代价低

第一页 上一页 下一页 最后一页