avro orc parquet avro 行存储 schema和数据保存在一起 dynamic schema evolution 动态模式修改 orc 列存储 hadoop rcfile 优化版本,更高的压缩比和更快的查询效率 schema存储在footer中 不支持schema evolution 高压缩比并包含索引 为hive而生,许多非hive的大数据组件不可用 parquet 列存储 , 与orc有点类似 ,schema存储在footer中 高压缩比并包含索引 ,很多大数据组件都可以使用 存储格式选择 如果只读取部分列,考虑orc或者parquet hive组件用orc,spark用parquet 需要读取多行使用avro hive四种存储格式