文章详情|大数据学习路线

大数据学习路线 所属分类 bigdata 浏览量 1508

hadoop -> zookeeper -> hive -> flume && sqoop ->
azkaban && oozie -> 数仓建模理论+实践（离线数仓项目）-> 
hbase -> redis -> kafka -> elk -> 
scala -> spark -> kylin -> flink -> 实时数仓项目



Hadoop 三个组件 MapReduce HDFS Yarn
Zookeeper 分布式协调框架 
Hive 数仓工具 

Flume 采集工具 把日志实时采集到大数据平台上
Sqoop hadoop和其他数据库之间移动数据  

azkaban和oozie 任务调度  定时跑批 
azkaban功能简单，易上手，oozie功能多，相对复杂
数仓理论+实践（重点）


HBase 分布式列式数据库，适合存储海量数据，秒级查询

Kafka

ELK  Elasticsearch Logstash Kibana

Elasticsearch  基于 Lucene  分布式存储和索引 
Logstash 日志收集 过滤 转发
Kibana 可视化工具

Scala 大数据语言

Spark  通用的计算引擎，支持批处理和流处理

Kylin
解决大数据系统中TB级别数据的数据分析需求
提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力
支持超大规模数据
其核心是预计算，结果存在HBase中

Flink  分布式计算框架 支持批处理和流处理，主要用在流处理

实时数仓项目

spark运行模式及集群角色

spark作业运行流程

Zeppelin简介

学霸老师见多了学霸，发现学霸养成的真相

hadoop集群进程及作用

如果说编程语言是一种宗教