文章详情|Hadoop HBase Hive Spark

Hadoop HBase Hive Spark 所属分类 bigdata 浏览量 2241
hadoop hive hbase spark

hdfs 分布式文件系统 
yarn 资源管理
map-reduce 分布式计算框架

hadoop-2.7.2
hbase-1.2.2
apache-hive-2.1.0
spark-2.0.0-bin-hadoop2.7




yarn 资源管理 任务调度

资源管理 
全局 ResourceManager(RM) 和 分布在每台机器上的NodeManager协同工作，
RM负责资源的协调，NodeManager负责每个节点的资源监控、状态汇报和Container的管理

任务调度 
ResourceManager负责任务的接受和调度，
Container 启动 ApplicationMaster(AM)负责任务的管理，
向RM申请资源，分配到Container用来运行任务，AM和Container通信，AM和具体执行的任务都在Container中执行

hdfs 
NameNode DataNode
SecondaryNameNode  

map-reduce 
Map-reduce依赖 yarn和hdfs  
JobHistoryServer 查看任务运行历史

配置文件
默认配置
core-default.xml
hdfs-default.xml
yarn-default.xml
mapred-default.xml

配置
core-site.xml
hdfs-site.xml
yarn-site.xml
mapred-site.xml

环境配置
hadoop-env.sh 
mapred-env.sh 
yarn-env.sh

JVM参数  日志等配置

core-site.xml

fs.defaultFS
hdfs://127.0.0.1:8000

io.file.buffer.size
131072


hdfs-site.xml


dfs.namenode.name.dir
file:/data/apache/dfs/name

dfs.datanode.data.dir
file:/data/apache/dfs/data

dfs.datanode.fsdataset.volume.choosing.policy
org.apache.hadoop.hdfs.server.datanode.fsdataset.AvailableSpaceVolumeChoosingPolicy

dfs.namenode.http-address
127.0.0.1:50070

dfs.namenode.secondary.http-address
127.0.0.1:8001

yarn-site.xml

yarn.resourcemanager.hostname
127.0.0.1

yarn.resourcemanager.webapp.address
127.0.0.1:8088

yarn.nodemanager.aux-services
mapreduce_shuffle

yarn.nodemanager.aux-services.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler

yarn.log-aggregation-enable
true

yarn.log-aggregation.retain-seconds
864000

yarn.log-aggregation.retain-check-interval-seconds
86400

yarn.nodemanager.remote-app-log-dir
/YarnApp/Logs

yarn.log.server.url
http://127.0.0.1:19888/jobhistory/logs/

yarn.nodemanager.local-dirs
/data/apache/tmp/

yarn.scheduler.maximum-allocation-mb
5000

yarn.scheduler.minimum-allocation-mb
1024

yarn.nodemanager.vmem-pmem-ratio
4.1

yarn.nodemanager.vmem-check-enabled
false


mapred-site.xml

mapreduce.framework.name
yarn


yarn.app.mapreduce.am.staging-dir
/tmp/hadoop-yarn/staging

mapreduce.jobhistory.address
127.0.0.1:10020

mapreduce.jobhistory.webapp.address
127.0.0.1:19888

mapreduce.jobhistory.done-dir
${yarn.app.mapreduce.am.staging-dir}/history/done

mapreduce.jobhistory.intermediate-done-dir
${yarn.app.mapreduce.am.staging-dir}/history/done_intermediate

mapreduce.jobhistory.joblist.cache.size
1000

mapreduce.tasktracker.map.tasks.maximum
8

mapreduce.tasktracker.reduce.tasks.maximum
8

mapreduce.jobtracker.maxtasks.perjob
5


The maximum number of tasks for a single job.
A value of -1 indicates that there is no maximum.


格式化 namenode
./bin/hdfs namenode -format myclustername

格式化之后 /data/apache/dfs 生成name目录

启动namenode
./sbin/hadoop-daemon.sh --script hdfs start namenode

启动datanode
./sbin/hadoop-daemon.sh --script hdfs start datanode


启动yarn，启动resource manager
./sbin/yarn-daemon.sh start resourcemanager

启动nodemanager
./sbin/yarn-daemon.sh start nodemanager


启动MapReduce JobHistory Server
./sbin/mr-jobhistory-daemon.sh start historyserver


查看集群资源
http://127.0.0.1:8088/cluster 

查看map-reduce任务执行历史情况
http://127.0.0.1:19888/jobhistory 

查看dfs健康状况
http://127.0.0.1:50070/dfshealth.html 


Hbase 

hbase-site.xml


hbase.cluster.distributed
true

hbase.rootdir
hdfs://127.0.0.1:8001/hbase

hbase.zookeeper.quorum
127.0.0.1


hdfs hbase存储目录

./hadoop/bin/hadoop fs -ls /hbase
 
 
HMaster负责管理HRegionServer 实现负载均衡，负责管理和分配HRegion(数据分片)，负责管理命名空间和table元数据，以及权限控制

HRegionServer负责管理本地的HRegion、管理数据以及和hdfs交互。

Zookeeper负责集群的协调(HMaster主从的failover)以及集群状态信息的存储

客户端传输数据直接和HRegionServer通信


hive
apache-hive-2.1.0-bin.tar.gz


HADOOP_HOME
HIVE_HOME


元数据数据库  derby mysql

schematool -dbType derby -initSchema

以server形式启动

nohup hiveserver2 &> hive.log &

默认监听10000端口 , 可通过jdbc客户端连接 hive 服务


spark

spark-2.0.0-bin-hadoop2.7.tgz

支持单机
./bin/spark-submit examples/src/main/python/pi.py 10

sbin/start-master.sh
http://127.0.0.1:8080/ 

启动slave
./sbin/start-slave.sh spark://master:7077

提交任务到集群
./bin/spark-submit --master spark://master:7077 examples/src/main/python/pi.py 10

部署到yarn集群上执行

配置 HADOOP_CONF_DIR

./bin/spark-submit --master yarn --deploy-mode cluster examples/src/main/python/pi.py 10

http://127.0.0.1:8088/cluster
CDH组件版本查看

华宝油气基金

投行三百年简史

hdfs

YARN

MapReduce