首页  

clickhouse MergeTree 和 Distributed 存储引擎     所属分类 clickhouse 浏览量 1717
Clickhouse提供了丰富的存储引擎,存储引擎的类型决定了数据如何存放、如何做备份、如何被检索、是否使用索引。
不同的存储引擎在数据写入/检索方面做平衡,以满足不同业务需求。

Clickhouse不足
不支持事务
聚合操作取决于单台机器的 RAM
资料及文档较少、运维困难


并发量 单个查询比较短时,官方建议100 QPS
写入性能 MergeTree引擎 写入速度大概 50 - 200M / s , 
按照1 K一条记录,每秒写入 50000 ~ 200000条记录 


两种最重要的引擎 MergeTree Distributed


MergeTree是ClickHouse中最先进的引擎,并由MergeTree衍生出了一系列的引擎,统称MergeTree系引擎。

特性

支持主键和日期索引
支持数据更新
必须有一个Date类型列,默认按时间进行分区存放
默认分区以月为单位 
同一个分区的数据会被切割到不同的文件夹中
后台线程定时合并数据
数据按照主键排序,索引文件

分区特性
老版本的ClickHouse中只支持按月分区
1.1.54310版之后,支持用户自定义分区
可通过system.parts表查看表的分区情况


索引

每个数据分区的子文件夹都有一个独立索引
where子句 索引列及Date列 过滤
Like 不会使用索引 
对于日期索引,查询仅仅在包含这些数据的分区上执行
查询时最好指定主键,因为在一个子分区中,数据按照主键存储。
当定位到某天的数据文件夹时,如果这一天数据量很大,查询不带主键就会扫描大量的数据


Distributed Distributed引擎不存储真实数据,用来做分布式写入和查询,与其他引擎配合使用 Distributed + MergeTree 一种合理的集群拓扑 Distributed 写节点1 写节点2 ... 读节点1 读节点2 ... MergeTree 数据节点1 数据节点2 数据节点3 ... 数据节点N Distributed Proxy 只存表结构 MergeTree DataNode,存储真实数据 Distributed 引擎需要指定如下参数 [集群名称,远程数据库名,远程表名,分片规则] 集群名 远程数据库名 比如存储具体数据的MergeTree引擎的数据库名 远程表名 存储真实数据的表名 分片规则 可选 分片 一个 Distributed 表可以被切成多个分片(shard),分片之间没有数据重合。 副本 一个 Distributed 分片可以有多个副本,副本的数据完全相同。 数据读取过程 查询被分发到远程shards上去并行执行 当查询一个副本连接失败,会尝试其他副本 查询会使用远程服务器上引擎的索引 数据聚合之类的操作也会先在远程数据Node上进行,然后把中间结果发送到Distributed引擎所在服务器,做进一步聚合 数据写入过程 两种数据写入方式 直接将数据写入数据节点。最优方式,数据并发写入数据节点 ,效率高 数据写入distributed表 ,Distributed表 根据 shardingkey将数据分发到相应的shard上去

上一篇     下一篇
JVM Attach机制

arthas原理简介

OLAP引擎介绍及比较

后浪程序员

大数据常用存储格式

Apache Parquet