首页   快速返回

hive四种存储格式     所属分类 hive
TextFile
RCFile
ORCFile
Parquet

TextFile 默认格式 不支持块压缩 ,数据不做压缩,磁盘开销大 

RCFile   Record Columnar , Hadoop第一个列文件格式。
通常写操作比较慢,比非列形式的文件格式需要更多的内存空间和计算量。

行列存储相结合 数据按行分块 保证同一个record在一个块上,避免读一个记录需要读取多个block。
块数据列式存储,有利于数据压缩和快速的列存取。


ORCFile  Optimized Row Columnar
rcfile的改良版本  更好的压缩 更快的查询

Parquet
很好的压缩和查询性能 支持有限的模式演进 ,写速度通常比较慢 
主要用在Cloudera Impala上


存储及查询比较

查询语句 
select count(*) from table_test
select name,sum(price) from table_test group by name

存储格式    占用空间(G)  压缩比(压缩后/压缩前) 查询1耗时(S) 查询2耗时
TextFile  15.1        1.00              118        217  
RCFile    12.3        0.8146            88         187
ORCFile   1.3         0.0861            33         33
Parquet   4.3         0.2848            40         71

上一篇     下一篇
git回退到之前的版本

git合并处理

数据结构要点

java版hyperLogLog

磁盘io与直接io

Linux IO sync fsync与fdatasync