Hadoop HBase Hive Spark
所属分类 bigdata
浏览量 1538
hadoop hive hbase spark
hdfs 分布式文件系统
yarn 资源管理
map-reduce 分布式计算框架
hadoop-2.7.2
hbase-1.2.2
apache-hive-2.1.0
spark-2.0.0-bin-hadoop2.7
yarn 资源管理 任务调度
资源管理
全局 ResourceManager(RM) 和 分布在每台机器上的NodeManager协同工作,
RM负责资源的协调,NodeManager负责每个节点的资源监控、状态汇报和Container的管理
任务调度
ResourceManager负责任务的接受和调度,
Container 启动 ApplicationMaster(AM)负责任务的管理,
向RM申请资源,分配到Container用来运行任务,AM和Container通信,AM和具体执行的任务都在Container中执行
hdfs
NameNode DataNode
SecondaryNameNode
map-reduce
Map-reduce依赖 yarn和hdfs
JobHistoryServer 查看任务运行历史
配置文件
默认配置
core-default.xml
hdfs-default.xml
yarn-default.xml
mapred-default.xml
配置
core-site.xml
hdfs-site.xml
yarn-site.xml
mapred-site.xml
环境配置
hadoop-env.sh
mapred-env.sh
yarn-env.sh
JVM参数 日志等配置
core-site.xml
fs.defaultFS
hdfs://127.0.0.1:8000
io.file.buffer.size
131072
hdfs-site.xml
dfs.namenode.name.dir
file:/data/apache/dfs/name
dfs.datanode.data.dir
file:/data/apache/dfs/data
dfs.datanode.fsdataset.volume.choosing.policy
org.apache.hadoop.hdfs.server.datanode.fsdataset.AvailableSpaceVolumeChoosingPolicy
dfs.namenode.http-address
127.0.0.1:50070
dfs.namenode.secondary.http-address
127.0.0.1:8001
yarn-site.xml
yarn.resourcemanager.hostname
127.0.0.1
yarn.resourcemanager.webapp.address
127.0.0.1:8088
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.nodemanager.aux-services.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler
yarn.log-aggregation-enable
true
yarn.log-aggregation.retain-seconds
864000
yarn.log-aggregation.retain-check-interval-seconds
86400
yarn.nodemanager.remote-app-log-dir
/YarnApp/Logs
yarn.log.server.url
http://127.0.0.1:19888/jobhistory/logs/
yarn.nodemanager.local-dirs
/data/apache/tmp/
yarn.scheduler.maximum-allocation-mb
5000
yarn.scheduler.minimum-allocation-mb
1024
yarn.nodemanager.vmem-pmem-ratio
4.1
yarn.nodemanager.vmem-check-enabled
false
mapred-site.xml
mapreduce.framework.name
yarn
yarn.app.mapreduce.am.staging-dir
/tmp/hadoop-yarn/staging
mapreduce.jobhistory.address
127.0.0.1:10020
mapreduce.jobhistory.webapp.address
127.0.0.1:19888
mapreduce.jobhistory.done-dir
${yarn.app.mapreduce.am.staging-dir}/history/done
mapreduce.jobhistory.intermediate-done-dir
${yarn.app.mapreduce.am.staging-dir}/history/done_intermediate
mapreduce.jobhistory.joblist.cache.size
1000
mapreduce.tasktracker.map.tasks.maximum
8
mapreduce.tasktracker.reduce.tasks.maximum
8
mapreduce.jobtracker.maxtasks.perjob
5
The maximum number of tasks for a single job.
A value of -1 indicates that there is no maximum.
格式化 namenode
./bin/hdfs namenode -format myclustername
格式化之后 /data/apache/dfs 生成name目录
启动namenode
./sbin/hadoop-daemon.sh --script hdfs start namenode
启动datanode
./sbin/hadoop-daemon.sh --script hdfs start datanode
启动yarn,启动resource manager
./sbin/yarn-daemon.sh start resourcemanager
启动nodemanager
./sbin/yarn-daemon.sh start nodemanager
启动MapReduce JobHistory Server
./sbin/mr-jobhistory-daemon.sh start historyserver
查看集群资源
http://127.0.0.1:8088/cluster
查看map-reduce任务执行历史情况
http://127.0.0.1:19888/jobhistory
查看dfs健康状况
http://127.0.0.1:50070/dfshealth.html
Hbase
hbase-site.xml
hbase.cluster.distributed
true
hbase.rootdir
hdfs://127.0.0.1:8001/hbase
hbase.zookeeper.quorum
127.0.0.1
hdfs hbase存储目录
./hadoop/bin/hadoop fs -ls /hbase
HMaster负责管理HRegionServer 实现负载均衡,负责管理和分配HRegion(数据分片),负责管理命名空间和table元数据,以及权限控制
HRegionServer负责管理本地的HRegion、管理数据以及和hdfs交互。
Zookeeper负责集群的协调(HMaster主从的failover)以及集群状态信息的存储
客户端传输数据直接和HRegionServer通信
hive
apache-hive-2.1.0-bin.tar.gz
HADOOP_HOME
HIVE_HOME
元数据数据库 derby mysql
schematool -dbType derby -initSchema
以server形式启动
nohup hiveserver2 &> hive.log &
默认监听10000端口 , 可通过jdbc客户端连接 hive 服务
spark
spark-2.0.0-bin-hadoop2.7.tgz
支持单机
./bin/spark-submit examples/src/main/python/pi.py 10
sbin/start-master.sh
http://127.0.0.1:8080/
启动slave
./sbin/start-slave.sh spark://master:7077
提交任务到集群
./bin/spark-submit --master spark://master:7077 examples/src/main/python/pi.py 10
部署到yarn集群上执行
配置 HADOOP_CONF_DIR
./bin/spark-submit --master yarn --deploy-mode cluster examples/src/main/python/pi.py 10
http://127.0.0.1:8088/cluster
上一篇
下一篇
CDH组件版本查看
华宝油气基金
投行三百年简史
hdfs
YARN
MapReduce