hive四种存储格式  
   
所属分类 hive
浏览量 1978
TextFile
RCFile
ORCFile
Parquet
TextFile 默认格式 不支持块压缩 ,数据不做压缩,磁盘开销大 
RCFile   Record Columnar , Hadoop第一个列文件格式。
通常写操作比较慢,比非列形式的文件格式需要更多的内存空间和计算量。
行列存储相结合 数据按行分块 保证同一个record在一个块上,避免读一个记录需要读取多个block。
块数据列式存储,有利于数据压缩和快速的列存取。
ORCFile  Optimized Row Columnar
rcfile的改良版本  更好的压缩 更快的查询
Parquet
很好的压缩和查询性能 支持有限的模式演进 ,写速度通常比较慢 
主要用在Cloudera Impala上
存储及查询比较
查询语句 
select count(*) from table_test
select name,sum(price) from table_test group by name
存储格式    占用空间(G)  压缩比(压缩后/压缩前) 查询1耗时(S) 查询2耗时
TextFile  15.1        1.00              118        217  
RCFile    12.3        0.8146            88         187
ORCFile   1.3         0.0861            33         33
Parquet   4.3         0.2848            40         71
 上一篇  
   
 下一篇  
 git回退到之前的版本 
 git合并处理 
 数据结构要点 
 java版hyperLogLog 
 磁盘io与直接io 
 Linux IO sync fsync与fdatasync