1880年美国进行人口普查的数据全靠手工处理,历时7年才得到结果。
同年,美国人口调查局职员霍列瑞斯发明了用于人口普查数据的穿孔卡片及机器,并用于1890年美国人口普查,仅6周就完成了统计。
霍列瑞斯后来创建了一个公司,叫做制表机公司,就是后来的国际商用机器公司(IBM)
每个Spark job 会启动一个 Driver 进程
local(本地模式):Driver进程直接运行在本地
yarn-client:Driver运行在本地
yarn-cluster:Driver运行在集群(NodeManager)
成本低,时间就是你的朋友,否则就是你的敌人
Lakehouse = 云上对象存储 + 湖格式 + 湖管理平台
数据湖以基于 HDFS 存储、或者基于云上的对象存储这种相对低成本、高可用的统一存储系统,替换了原先的底层存储。
可以存储各种原始数据,无需提前进行建模和数据转化,存储成本低且拓展性强
支持半结构化和非结构化的数据
数据更加开放,可以通过各种计算引擎或者分析手段读取数据,支持丰富的计算场景,灵活性强且易于启动。
一些问题
数据链路长/组件多导致出错率高、数据可靠性差
各个系统间不断的数据迁移同步给数据一致性和时效性带来挑战
湖里的数据杂乱无章,未经优化直接访问查询会出现性能问题
整体系统的复杂性导致企业建设和维护成本高等
2013 年 谷歌 Dremel 掀起了交互式查询的风潮
Cloudera Impala
Hadoop 发行商 MapR Apache Drill
Doris是一个MPP的OLAP系统,主要整合了Google Mesa(数据模型),Apache Impala(MPP Query Engine)和Apache ORCFile (存储格式,编码和压缩) 的技术
OLAP 按数据存储格式分
ROLAP(Relational OLAP) 基于多维数组的存储模型,预计算,以空间换效率 Kylin Druid
MOLAP(Multi-dimensional OLAP) 基于关系模型进行存储数据,不需要预计算,按需即时查询 Presto impala
HOLAP(Hybrid OLAP)
2013 年 Hive 慢不好用
谷歌的 Dremel 刚出来没多久,掀起了交互式查询的风潮
Cloudera Impala
Hadoop 发行商 MapR Apache Drill
2006年女足战胜东道主澳大利亚夺冠,
随后,上证指数从1600点涨到6100点,这次能涨多少 ?
第一页
上一页
下一页
最后一页