大数据学习路线
所属分类 bigdata
浏览量 812
hadoop -> zookeeper -> hive -> flume && sqoop ->
azkaban && oozie -> 数仓建模理论+实践(离线数仓项目)->
hbase -> redis -> kafka -> elk ->
scala -> spark -> kylin -> flink -> 实时数仓项目
Hadoop 三个组件 MapReduce HDFS Yarn
Zookeeper 分布式协调框架
Hive 数仓工具
Flume 采集工具 把日志实时采集到大数据平台上
Sqoop hadoop和其他数据库之间移动数据
azkaban和oozie 任务调度 定时跑批
azkaban功能简单,易上手,oozie功能多,相对复杂
数仓理论+实践(重点)
HBase 分布式列式数据库,适合存储海量数据,秒级查询
Kafka
ELK Elasticsearch Logstash Kibana
Elasticsearch 基于 Lucene 分布式存储和索引
Logstash 日志收集 过滤 转发
Kibana 可视化工具
Scala 大数据语言
Spark 通用的计算引擎,支持批处理和流处理
Kylin
解决大数据系统中TB级别数据的数据分析需求
提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力
支持超大规模数据
其核心是预计算,结果存在HBase中
Flink 分布式计算框架 支持批处理和流处理,主要用在流处理
实时数仓项目
上一篇
下一篇
spark运行模式及集群角色
spark作业运行流程
Zeppelin简介
学霸老师见多了学霸,发现学霸养成的真相
hadoop集群进程及作用
如果说编程语言是一种宗教