首页  

大数据常用存储格式     所属分类 bigdata 浏览量 207
avro  orc parquet

avro
行存储 schema和数据保存在一起
dynamic schema evolution 动态模式修改

orc
列存储
hadoop rcfile 优化版本,更高的压缩比和更快的查询效率
schema存储在footer中 不支持schema evolution
高压缩比并包含索引
为hive而生,许多非hive的大数据组件不可用


parquet
列存储 , 与orc有点类似 ,schema存储在footer中
高压缩比并包含索引 ,很多大数据组件都可以使用


存储格式选择

如果只读取部分列,考虑orc或者parquet
hive组件用orc,spark用parquet
需要读取多行使用avro


 hive四种存储格式 

上一篇     下一篇
OLAP引擎介绍及比较

clickhouse MergeTree 和 Distributed 存储引擎

后浪程序员

Apache Parquet

H2 MVStore

H2 MVStore Log Structured Storage