首页   快速返回

大数据日知录第一章数据分片与路由读书笔记     所属分类 bigdata
横向/水平扩展 Scale Out 
数据分片 Shard/Partition
数据路由
分片实现水平扩展,复制保证高可用

哈希分片

Round Robin 哈希取模法
节点数 N 
S(key)= hash(key)mod K
实现简单,但缺乏灵活性,节点变化,数据重分布

虚拟桶(Virtual Buckets)   Membase(现更名为Couchbase)

记录 虚拟桶 节点
一个虚拟桶包含多个记录
一个物理节点可以容纳多个虚拟桶

Key-Partition映射采用哈希函数
Partition-machine采用表格管理

引入虚拟桶,将原先由记录直接到物理节点的单层映射改为两级映射,加强了系统的扩展灵活性。
新增节点  ,修改Partition-machine映射表,将某些虚拟桶分配给新节点,

一致性哈希 consistent hashing

分布式哈希表(DHT)

哈希空间 哈希环 节点hash 放到环上
数据hash 顺时针 定位节点
节点变化,只影响相邻节点
虚拟节点 数据分布更均衡

dynamo 和 cassandra 



范围分片 range  记录按主键排序

LSM树(Log Structured Merge Tree)
写优化,写入性能高, 
增量更新保持在内存中,达到指定的大小限制后,批量写入磁盘
读取时需要合并内存和持久化的历史数据 

可以看成多颗树,先写入内存中,内存的树flush到硬盘,硬盘上的树定期merge,合并成一棵大树,以优化读性能。

hbase hdfs
bigtable

很多大规模存储都使用范围分片模式

上一篇     下一篇
kafka知识点整理之概述

2019年杭州的独角兽和准独角兽们

springboot常用注解和配置整理

开发自己的maven插件

aerospike的一些限制

aerospike data-in-memory 机制说明