首页  

大数据学习路线     所属分类 bigdata 浏览量 692
hadoop -> zookeeper -> hive -> flume && sqoop ->
azkaban && oozie -> 数仓建模理论+实践(离线数仓项目)-> 
hbase -> redis -> kafka -> elk -> 
scala -> spark -> kylin -> flink -> 实时数仓项目



Hadoop 三个组件 MapReduce HDFS Yarn
Zookeeper 分布式协调框架 
Hive 数仓工具 

Flume 采集工具 把日志实时采集到大数据平台上
Sqoop hadoop和其他数据库之间移动数据  

azkaban和oozie 任务调度  定时跑批 
azkaban功能简单,易上手,oozie功能多,相对复杂
数仓理论+实践(重点)


HBase 分布式列式数据库,适合存储海量数据,秒级查询

Kafka

ELK  Elasticsearch Logstash Kibana

Elasticsearch  基于 Lucene  分布式存储和索引 
Logstash 日志收集 过滤 转发
Kibana 可视化工具

Scala 大数据语言

Spark  通用的计算引擎,支持批处理和流处理

Kylin
解决大数据系统中TB级别数据的数据分析需求
提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力
支持超大规模数据
其核心是预计算,结果存在HBase中

Flink  分布式计算框架 支持批处理和流处理,主要用在流处理

实时数仓项目

上一篇     下一篇
spark运行模式及集群角色

spark作业运行流程

Zeppelin简介

学霸老师见多了学霸,发现学霸养成的真相

hadoop集群进程及作用

如果说编程语言是一种宗教