HDFS特点及优缺点
所属分类 bigdata
浏览量 1393
特点
分块存储(block) 块大小配置 dfs.blocksize
默认大小 hadoop2.x 版本 128M,老版本 64M
提供统一的抽象目录树,客户端通过路径访问文件
hdfs://namenode:port/x/y/z/abc.data
namenode 负责维护 hdfs 文件系统目录树,每一个文件对应的 block 块信息(block id,及所在的 datanode 服务器)
datanode 负责 block 的读写
副本数量 参数设置 dfs.replication,默认 3
适合一次写入,多次读取的场景,不支持修改,只支持追加
优点
1.可构建在廉价机器上
2.高容错性:通过多副本提高可靠性,提供了容错和恢复机制 , 副本丢失后,自动恢复
3.适合批处理
4.移动计算而非数据,数据位置暴露给计算框架
5.适合大数据处理:GB、TB、甚至 PB 级数据,百万规模以上的文件数量,10K+节点规模
6.一次性写入,多次读取,保证数据一致性
缺点
1.不支持低延迟数据访问 ,比如毫秒级
2.不太支持大量小文件存取 ,占用 NameNode 大量内存
3.不支持并发写入 ,一个文件只能有一个写 , 不支持随机修改 ,仅支持 append
hadoop fs -appendToFile xxx.txt /xxx.txt
为何不适合存储小文件
1.元信息存储在 NameNode 内存中 , 一个节点的内存是有限的 ,NameNode 存储 block 数目是有限的 ,
一个 block 元信息消耗大约 150 byte 内存,存储 1 亿个 block,大约需要 20GB 内存 ,
如果一个文件大小为 10K,则 1 亿个文件大小仅为 1TB ,但要消耗掉 NameNode 20GB内存
2.存取大量小文件消耗大量的寻道时间
上一篇
下一篇
HDFS Federation 机制
CDH 5.14.2 各种角色
cdh5 mapreduce 例子
hdfs安全模式
文件内容对比技巧
Maven命令行直接运行SpringBoot项目