首页  

数据仓库名词解释     所属分类 DW 浏览量 668
自然主键 代理键  业务主键 自增主键 
代理键 不具有业务含义的键
自然键 已有标准的各种ID,比如身份证号、国家标准行政代码

全量表 增量表 流水表 拉链表 快照表
分区 分桶 分表 分库 
维度 缓慢变化维 度量 指标
位图 颗粒度

表的设计模式
分区 分桶 分表 分库

MapReduce Spark  shuffle  分桶 join


表的更新模式
全量表 增量表 流水表 快照表 拉链表

快照表
每天都把所有数据都复制一遍 

流水表
把每条数据的每次变化都记录下来,形成数据变化流水账 

拉链表
不记录所有变化,只记录关键信息的变化 

增量表
只含有某个更新周期内的数据

颗粒度 数据的粗细程度
总GMV  某时间段内总GMV 某品类GMV 某商品GMV 某订单的订单额 订单中的某个商品的金额


维度 数据的分类 观察数据的角度

度量和指标
度量 度量是BI里的概念,就是对事物的量化标准
指标是对事物的具体量化
度量和指标都是对事物的量化
度量会随着维度、范围、对比,展示出不同的含义
指标的含义相对固定
度量=原子指标
指标=原子指标+衍生指标+派生指标的集合

缓慢变化维  会慢慢变化的维度

把时间无限拉长,绝大多数维度都是缓慢变化的
学生表,学校就是维度。对于一个学生来说,学校基本是不会变化的,或者变化的概率非常小,是非常偶然的事情
但是把时间拉长,学校会发生变化 
幼儿园、小学、初中、高中、大学

上一篇     下一篇
scala :=>Unit 与 :()=>Unit 区别

hbase读写流程

主数据简介

sparkSQL和presto比较

SparkSQL join的三种实现方式

Spark知识点小结