文章详情|统一运维监控平台相关资料整理

统一运维监控平台相关资料整理 所属分类 apm 浏览量 1825
面向业务的运维,关心整个业务系统的健康状态
API和模块化应用,关注每个接口的性能变化情况和指标
监控大屏
每周、每月趋势分析报告
快速发现故障节点 故障切换


devops、云计算、微服务、容器 虚拟机、物理机

几百上千个虚拟机、容器，数十种要监控的对象

统一监控平台

监控源、数据采集、数据存储、数据分析、数据展现、预警中心、CMDB(企业软硬件资产管理)。


监控源
业务应用层、中间件层、基础设施层
中间件层包括数据库、缓存、配置中心、等各种系统软件，
基础设施层主要有物理机、虚拟机、容器、网络设备、存储设备等等。

数据采集
指标分类
业务指标、应用指标、系统软件监控指标、系统指标

应用监控指标
可用性、异常、吞吐量、响应时间、资源占用率、请求量、日志大小、性能、队列深度、线程数、服务调用次数、访问量、服务可用性等，
系统监控指标
CPU负载、内存负载、磁盘负载、网络IO、磁盘IO、tcp连接数、进程数等。

采集方式
接口采集、客户端agent采集、通过网络协议主动抓取（http、snmp等）
主动采集、客户端采集
主动采集一般是通过SNMP、SSH、Telnet、IPMI、JMX等手段进行远程采集
客户端采集 需要在每一个被监控的主机中部署一个客户端进行数据采集并发送到远程服务器。




数据存储
文件系统（如HDFS）、索引系统（如elasticsearch）、
指标库（如influxdb）、消息队列（如kafka，做消息临时存储或者缓冲）、数据库（如mysql）


数据分析
实时处理和批处理
Map/Reduce计算、全日志检索、流式计算、指标计算等

数据展现
图表展现  多屏 跨设备

预警
异常分析、风险预估 告警

数据存储
时序数据库 
influxdb opentsdb


数据展现
Grafana  echarts


Zabbix  Nagios  Open-Falcon

Zabbix组件

server：负责接收agent发送的报告信息的核心组件，所有配置、统计数据及操作数据都由它组织进行；
database storage   专用于存储所有配置信息，以及由zabbix收集的数据；
web interface    GUI接口
proxy   可选组件，常用于监控节点很多的分布式环境中，代理server收集部分数据转发到server，可以减轻server的压力；
agent    部署在被监控的主机上，负责收集主机本地数据如cpu、内存、数据库等数据发往server端或proxy端；


Open-Falcon 整体可以分为两部分，即绘图组件、告警组件。
绘图组件负责数据的采集、收集、存储、归档、采样、查询、展示（Dashboard/Screen）等功能，可以单独工作，作为time-series data的一种存储展示方案。
告警组件负责告警策略配置（portal）、告警判定（judge）、告警处理（alarm/sender）、用户组管理（uic）等，可以单独工作。


基于k8s容器云背景下的系统监控实践
cAdvisor+Heapster+Influxdb


cAdvisor 是谷歌公司用来分析运行中的Docker容器的资源占用以及性能特性的工具, 
cAdvisor部署为一个运行中的daemon，它会收集、聚集、处理并导出运行中容器的信息。
这些信息能够包含容器级别的资源隔离参数、资源的历史使用状况、反映资源使用和网络统计数据完整历史状况。
对docker的监控能力非常强大。同时还提供了自己的web页面，用户可以通过web页面直接查看该宿主机上所有容器的监控数据。
cAdvior功能已经被集成到了kubelet组件中，也就是说，安装好kubernetes后，cAdvisor就已经安装到了每一个计算节点上。
在每一个计算节点上都可以通过IP+端口（默认为4194）访问cAdvisor的页面了。

cAdvisor+Heapster+Influxdb方案可以做到容器和主机性能数据同时监控外，还有一个相对而言更好的方案，那就是Prometheus。

Prometheus最初是参照google内部监控系统BorgMon开发的，
现在最常见的Kubernetes容器管理系统中，通常会搭配Prometheus进行监控。


Prometheus Server : Prometheus主服务器，用来收集和存储时间序列数据
client libraries : 客户端库
push gateway : 短时jobs的中介网关
GUI-based dashboard builder :  基于Rails/SQL的GUI dashboard
Exporters ： 数据采集探针，支持包括数据库、主机、消息队列、存储、应用服务器、github等软件、其他监控系统等多种类的探针。
Alertmanager ：告警中心


Prometheus 是google力捧的监控方案，社区非常活跃，发展很是迅速，功能在不断的飞速补充和完善。
监控范围覆盖容器、主机、存储、数据库、各种中间件，同时还具体完善的时序数据存储、告警中心等能力
Java GC种类及配置说明

LSM Tree 要点整理

java GC之 CMS 和 G1

时间序列数据库要点整理

内核参数设置及优化

高可用架构简单介绍