大数据存储架构简介
所属分类 architecture
浏览量 691
业务 风控 推荐 BI
关系数据库
高速缓存
搜索引擎 复杂条件查询和全文检索
消息队列
非结构化存储 文件 图片或视频等
结构化存储
批量计算 离线计算 交互式分析
流计算 实时计算
Lambda架构
存储 分析型 事务型 混合型
TP AP HTAP
行存 列存
B+tree LSM-tree
NoSQL
同步与复制
几种常见的数据复制方式
应用层多写
异步队列复制
CDC(Change Data Capture)
MySQL+Elasticsearch ,Elasticsearch的数据通过MySQL的binlog来同步
CDC 数据一致性 数据同步延迟
计算组件 存储组件
Spark Flink
SQL NoSQL
对象存储 文件存储 高速缓存
数据模型 查询语言
关系模型 文档模型 时序 图 键值
分层
最终 OSS 存储
分析引擎
面向固定组合查询的基于B+tree的索引
面向地理位置查询的基于 R-tree 或 BKD-tree的空间索引
面向多条件组合查询和全文检索的 倒排索引
存储和计算分离
HBase Cassandra
HBase 缺点
查询能力弱 单行随机查询 范围扫描 ,复杂的组合条件查询必须使用Scan+Filter
不支持 CDC技术
运维复杂 依赖 hdfs zk
热点处理能力差 表分区 Range Partition
Rowkey设计
上一篇
下一篇
IntelliJ IDEA 介绍
MAC 安装 wget
minio搭建
scala for yield
Scala大小括号的区别
scala 表达式