文章详情|大数据日知录第一章数据分片与路由读书笔记

大数据日知录第一章数据分片与路由读书笔记 所属分类 bigdata 浏览量 1135

横向/水平扩展 Scale Out 
数据分片 Shard/Partition
数据路由
分片实现水平扩展，复制保证高可用

哈希分片

Round Robin 哈希取模法
节点数 N 
S（key）= hash（key）mod K
实现简单，但缺乏灵活性，节点变化，数据重分布

虚拟桶（Virtual Buckets）   Membase（现更名为Couchbase）

记录 虚拟桶 节点
一个虚拟桶包含多个记录
一个物理节点可以容纳多个虚拟桶

Key-Partition映射采用哈希函数
Partition-machine采用表格管理

引入虚拟桶，将原先由记录直接到物理节点的单层映射改为两级映射，加强了系统的扩展灵活性。
新增节点  ，修改Partition-machine映射表，将某些虚拟桶分配给新节点，

一致性哈希 consistent hashing

分布式哈希表（DHT）

哈希空间 哈希环 节点hash 放到环上
数据hash 顺时针 定位节点
节点变化，只影响相邻节点
虚拟节点 数据分布更均衡

dynamo 和 cassandra 



范围分片 range  记录按主键排序

LSM树（Log Structured Merge Tree）
写优化，写入性能高， 
增量更新保持在内存中，达到指定的大小限制后，批量写入磁盘
读取时需要合并内存和持久化的历史数据 

可以看成多颗树，先写入内存中，内存的树flush到硬盘，硬盘上的树定期merge，合并成一棵大树，以优化读性能。

hbase hdfs
bigtable

很多大规模存储都使用范围分片模式

kafka知识点整理之概述

2019年杭州的独角兽和准独角兽们

springboot常用注解和配置整理

开发自己的maven插件

aerospike的一些限制

aerospike data-in-memory 机制说明