hive四种存储格式
所属分类 hive
浏览量 1387
TextFile
RCFile
ORCFile
Parquet
TextFile 默认格式 不支持块压缩 ,数据不做压缩,磁盘开销大
RCFile Record Columnar , Hadoop第一个列文件格式。
通常写操作比较慢,比非列形式的文件格式需要更多的内存空间和计算量。
行列存储相结合 数据按行分块 保证同一个record在一个块上,避免读一个记录需要读取多个block。
块数据列式存储,有利于数据压缩和快速的列存取。
ORCFile Optimized Row Columnar
rcfile的改良版本 更好的压缩 更快的查询
Parquet
很好的压缩和查询性能 支持有限的模式演进 ,写速度通常比较慢
主要用在Cloudera Impala上
存储及查询比较
查询语句
select count(*) from table_test
select name,sum(price) from table_test group by name
存储格式 占用空间(G) 压缩比(压缩后/压缩前) 查询1耗时(S) 查询2耗时
TextFile 15.1 1.00 118 217
RCFile 12.3 0.8146 88 187
ORCFile 1.3 0.0861 33 33
Parquet 4.3 0.2848 40 71
上一篇
下一篇
git回退到之前的版本
git合并处理
数据结构要点
java版hyperLogLog
磁盘io与直接io
Linux IO sync fsync与fdatasync