首页  

大数据存储架构简介     所属分类 architecture 浏览量 700
业务 风控 推荐  BI
关系数据库
高速缓存 
搜索引擎  复杂条件查询和全文检索
消息队列
非结构化存储 文件 图片或视频等 
结构化存储
批量计算 离线计算 交互式分析
流计算  实时计算

Lambda架构

存储 分析型  事务型  混合型 
TP AP HTAP
行存 列存
B+tree  LSM-tree
NoSQL

同步与复制

几种常见的数据复制方式
应用层多写
异步队列复制
CDC(Change Data Capture)

MySQL+Elasticsearch ,Elasticsearch的数据通过MySQL的binlog来同步 

CDC  数据一致性 数据同步延迟

计算组件 存储组件

Spark Flink
SQL NoSQL
对象存储 文件存储 高速缓存

数据模型 查询语言
关系模型 文档模型 时序 图  键值


分层 
最终 OSS 存储
分析引擎

面向固定组合查询的基于B+tree的索引
面向地理位置查询的基于 R-tree 或 BKD-tree的空间索引
面向多条件组合查询和全文检索的 倒排索引

存储和计算分离

HBase Cassandra

HBase 缺点
查询能力弱  单行随机查询 范围扫描  ,复杂的组合条件查询必须使用Scan+Filter
不支持 CDC技术
运维复杂  依赖 hdfs zk
热点处理能力差  表分区 Range Partition

Rowkey设计





上一篇     下一篇
IntelliJ IDEA 介绍

MAC 安装 wget

minio搭建

scala for yield

Scala大小括号的区别

scala 表达式