文章详情|Spark大数据分析实战第6章 Kafka分布式消息系统

Spark大数据分析实战第6章 Kafka分布式消息系统 所属分类 spark 浏览量 1388

什么是Kafka
Kafka架构
主题与分区
分区副本
消费者组
Kafka集群环境搭建
Kafka命令行操作


什么是Kafka

分布式发布与订阅消息系统
消息中间件
作为Spark Streaming的实时数据源
Spark Streaming从Kafka中读取实时消息进行处理，保证了数据的可靠性与实时性

一些基本概念
消息（Message）
服务器节点（Broker）
主题（Topic）
分区（Partition）
生产者（Producer）
消费者（Consumer）



Kafka架构
ZooKeeper
Broker
生产者 Push  
消费者 pull

 kafka消息发送机制  

 kafka消费机制要点  




主题与分区
主题 分区  水平扩展
分区日志  追加写入
偏移量 offset
消费者 指定 分区 和 offset 读取消息
可以指定从某个分区中一次获取的消息数

 kafka消息存储及索引机制  




分区副本
副本  可靠性 高可用
leader  follower 副本
读写 leader 副本
follower 从 leader 同步
leader 挂了，选出 follower ，提升为leader



消费者组

消费者组 Consumer Group
队列模式和发布订阅模式

 kafka消费机制要点  



Kafka集群环境搭建

 kafka集群搭建 


Kafka命令行操作

 kafka运维常用命令 



 kafka核心知识点  

 深入理解Kafka：核心设计与实践原理 读书笔记

Spark大数据分析实战第3章 RDD弹性分布式数据集

Spark大数据分析实战第4章 Spark内核源码分析

Spark大数据分析实战第5章 Spark SQL结构化数据处理引擎

Spark大数据分析实战第7章 Spark Streaming实时流处理引擎

Clickhouse 监控运维常用SQL

Spark大数据分析实战第8章 Structured Streaming结构化流处理引擎