大数据日知录第一章数据分片与路由读书笔记
所属分类 bigdata
浏览量 1267
横向/水平扩展 Scale Out
数据分片 Shard/Partition
数据路由
分片实现水平扩展,复制保证高可用
哈希分片
Round Robin 哈希取模法
节点数 N
S(key)= hash(key)mod K
实现简单,但缺乏灵活性,节点变化,数据重分布
虚拟桶(Virtual Buckets) Membase(现更名为Couchbase)
记录 虚拟桶 节点
一个虚拟桶包含多个记录
一个物理节点可以容纳多个虚拟桶
Key-Partition映射采用哈希函数
Partition-machine采用表格管理
引入虚拟桶,将原先由记录直接到物理节点的单层映射改为两级映射,加强了系统的扩展灵活性。
新增节点 ,修改Partition-machine映射表,将某些虚拟桶分配给新节点,
一致性哈希 consistent hashing
分布式哈希表(DHT)
哈希空间 哈希环 节点hash 放到环上
数据hash 顺时针 定位节点
节点变化,只影响相邻节点
虚拟节点 数据分布更均衡
dynamo 和 cassandra
范围分片 range 记录按主键排序
LSM树(Log Structured Merge Tree)
写优化,写入性能高,
增量更新保持在内存中,达到指定的大小限制后,批量写入磁盘
读取时需要合并内存和持久化的历史数据
可以看成多颗树,先写入内存中,内存的树flush到硬盘,硬盘上的树定期merge,合并成一棵大树,以优化读性能。
hbase hdfs
bigtable
很多大规模存储都使用范围分片模式
上一篇
下一篇
kafka知识点整理之概述
2019年杭州的独角兽和准独角兽们
springboot常用注解和配置整理
开发自己的maven插件
aerospike的一些限制
aerospike data-in-memory 机制说明