文章详情|prometheus要点整理

prometheus要点整理 所属分类 prometheus 浏览量 5088
Prometheus 由 SoundCloud 开源的监控告警解决方案，与Kubernetes同属CNCF，
已经成为炙手可热的Kubernetes生态圈中的核心监控系统，越来越多的项目（如Kubernetes和etcd等 ）都加入了丰富的Prometheus原生支持


提供通用的数据模型和便捷的数据采集、存储和查询接口，基于Go实现降低了服务端的运维成本，
可以借助一些优秀的图形化工具（如Grafana）实现友好的可视化和报警。 

术语
time series  
metric 指标 
labels 标签
targes 数据源 抓取目标
alert  警报
exporter  信息收集和数据上报
counter 计数器
Gauge   计量器
quantile  分位数
bucket    桶 
Summary  概略图
Histogram 直方图

主要特点

多维数据模型  时序由 metric（指标）和 labels k/v 构成
灵活的查询语句 PromQL
无依赖存储，支持 local 和 remote 不同模型
采用 http 协议，  pull 模式拉取数据 
监控目标，可以采用服务发现或静态配置方式
支持多种统计数据模型，图形化友好

核心组件

Prometheus Server   用于抓取和存储时序数据，提供API 查询和 Alert Rule 配置
client libraries    用于对接 Prometheus Server, 可以查询和上报数据
push gateway       支持把指标推送到Pushgateway ，然后暴露指标，主要用于业务数据汇报等
exporters    如 node_exporter等 
alertmanager 用于告警通知管理 

Retrieval 检索拉取到的数据分发给TSDB进行存储
TSDB  当拉取的数据大于配置内存缓存区的时候，将数据持久化到磁盘（HHD/SSD）（如果使用 remote storage 将持久化到云端）。
Prometheus 可以配置 rules，然后定时查询数据，当条件触发的时候，会将 alert（警告） 推送（pushalerts）到配置的 Alertmanager（警告管理器）。

Alertmanager  收到警告的时候，可以根据配置，聚合，去重，降噪，最后发送警告。

API client   使用promQL查询数据
Grafana  数据可视化

Web UI  ： Prometheus web接口，简单可视化，及语句执行或者服务状态监控。

限制
只支持数值类型
不适合做审计计费 

数据模型

时序(time series)  指标+标签  Metric + label   key/value 
指标名  有 字母，数字，下划线，及冒号组成 必须满足正则表达式
[a-zA-Z_:][a-zA-Z0-9_:]*

http_requests_total   http 请求总数

标签 使 数据更加丰富，区分不同的时序数据

按照某个时序以时间维度采集的数据，称之为样本，其值包含： 
一个 float64 值
一个毫秒级的 unix 时间戳

时序名字+时序标签

metric_name{label_name1=label_value1, label_name2=label_value2 , ...}


4 种类型

Counter
Gauge
Histogram（采样并统计）
Summary（采样结果）

Histogram
用于表示一段时间范围内对数据进行采样（通常是请求持续时间或响应大小）， 
并能够对其指定区间以及总数进行统计，通常它采集的数据展示为直方图

Summary
主要用于表示一段时间内数据采样结果（通常是请求持续时间或响应大小），
直接存储 quantile 数据，而不是根据统计区间计算出来的。


prometheus
/metrics

# HELP prometheus_http_request_duration_seconds Histogram of latencies for HTTP requests.
# TYPE prometheus_http_request_duration_seconds histogram
prometheus_http_request_duration_seconds_bucket{handler="/metrics",le="0.1"} 116956
prometheus_http_request_duration_seconds_bucket{handler="/metrics",le="0.2"} 116956
prometheus_http_request_duration_seconds_bucket{handler="/metrics",le="0.4"} 116956
prometheus_http_request_duration_seconds_bucket{handler="/metrics",le="1"} 116956
prometheus_http_request_duration_seconds_bucket{handler="/metrics",le="3"} 116956
prometheus_http_request_duration_seconds_bucket{handler="/metrics",le="8"} 116956
prometheus_http_request_duration_seconds_bucket{handler="/metrics",le="20"} 116956
prometheus_http_request_duration_seconds_bucket{handler="/metrics",le="60"} 116956
prometheus_http_request_duration_seconds_bucket{handler="/metrics",le="120"} 116956
prometheus_http_request_duration_seconds_bucket{handler="/metrics",le="+Inf"} 116956
prometheus_http_request_duration_seconds_sum{handler="/metrics"} 707.1515445999988
prometheus_http_request_duration_seconds_count{handler="/metrics"} 116956


# HELP go_gc_duration_seconds A summary of the GC invocation durations.
# TYPE go_gc_duration_seconds summary
go_gc_duration_seconds{quantile="0"} 0.000114796
go_gc_duration_seconds{quantile="0.25"} 0.000165641
go_gc_duration_seconds{quantile="0.5"} 0.00019543
go_gc_duration_seconds{quantile="0.75"} 0.000244569
go_gc_duration_seconds{quantile="1"} 0.003400243
go_gc_duration_seconds_sum 3.281361499
go_gc_duration_seconds_count 5379

Histogram vs Summary

都包含 basename_sum，basename_count
Histogram 通过 basename_bucket 计算 quantile
Summary 直接存储 quantile 值 



job 和 instance 

 prometheus job 和 instance 


拉取数据时自动添加 两个标签

job        抓取目标配置的 job_name
instance   被抓取目标  host:port

标签冲突处理
设置 honor_labels: true    ，避免数据本身的 job 和 instance 被覆盖。


PromQL (Prometheus Query Language)   数据查询 DSL 语言


http_requests_total  等价 {__name__='http_requests_total'}

查询相当于对各种标签的筛选

http_requests_total{code="200"} 
http_requests_total{code="200",job='api'}
http_requests_total{code="200",job='api',instance="127.0.0.1:9000"}



操作符

算术运算符:   +，-，*，/，%，
比较运算符：  ==，!=，>，<，>=，<=
逻辑运算符：  and，or，unless
聚合运算符：  sum，min，max，avg，stddev，stdvar，count，count_values，bottomk，topk，quantile



内置函数

https://prometheus.io/docs/prometheus/latest/querying/functions/


Exporter xxx_exporter

https://prometheus.io/docs/instrumenting/exporters/#exporters-and-integrations

node_exporter 负责主机信息收集


Exporter 提供 http 接口 ， 将收集的数据转化为对应的文本格式。

以行 (\n) 为单位，忽略空行, 最后一行为空行。

以 # 开头通常表示注释
以 # HELP 开头表示 metric 帮助说明。
以 # TYPE 开头表示 metric 类型，counter, gauge, histogram, summary untyped 
其他表示一般注释 

# HELP http_requests_total The total number of HTTP requests.
# TYPE http_requests_total counter
http_requests_total{method="post",code="200"} 1027 
http_requests_total{method="post",code="400"}    3 


# HELP http_request_duration_seconds A histogram of the request duration.
# TYPE http_request_duration_seconds histogram
http_request_duration_seconds_bucket{le="0.05"} 24054
http_request_duration_seconds_bucket{le="0.1"} 33444
http_request_duration_seconds_bucket{le="0.2"} 100392
http_request_duration_seconds_bucket{le="0.5"} 129389
http_request_duration_seconds_bucket{le="1"} 133988
http_request_duration_seconds_bucket{le="+Inf"} 144320
http_request_duration_seconds_sum 53423
http_request_duration_seconds_count 144320

# HELP rpc_duration_seconds A summary of the RPC duration in seconds.
# TYPE rpc_duration_seconds summary
rpc_duration_seconds{quantile="0.01"} 3102
rpc_duration_seconds{quantile="0.05"} 3272
rpc_duration_seconds{quantile="0.5"} 4773
rpc_duration_seconds{quantile="0.9"} 9001
rpc_duration_seconds{quantile="0.99"} 76656
rpc_duration_seconds_sum 1.7560473e+07
rpc_duration_seconds_count 2693


histogram 或 summary 类型必需满足以下条件
 
metric = x 
采样数据的总和应表示为 x_sum
采样数据的总量应表示为 x_count
summary   quantile   x{quantile="y"}
histogram  分区统计数据  x_bucket{le="y"}
histogram   x_bucket{le="+Inf"} 
summary 和 historam 中 quantile 和 le 必需按从小到大顺序排列。


node_exporter 主机信息监控

CPU 使用率

100 - (avg by (instance) (irate(node_cpu{instance="xxx", mode="idle"}[5m])) * 100)

CPU 各 mode 占比率

avg by (instance, mode) (irate(node_cpu{instance="xxx"}[5m])) * 100

机器平均负载

node_load1{instance="xxx"} // 1分钟负载
node_load5{instance="xxx"} // 5分钟负载
node_load15{instance="xxx"} // 15分钟负载


内存使用率

100 - ((node_memory_MemFree{instance="xxx"}+node_memory_Cached{instance="xxx"}+node_memory_Buffers{instance="xxx"})/node_memory_MemTotal) * 100
1
磁盘使用率

100 - node_filesystem_free{instance="xxx",fstype!~"rootfs|selinuxfs|autofs|rpc_pipefs|tmpfs|udev|none|devpts|sysfs|debugfs|fuse.*"} / node_filesystem_size{instance="xxx",fstype!~"rootfs|selinuxfs|autofs|rpc_pipefs|tmpfs|udev|none|devpts|sysfs|debugfs|fuse.*"} * 100

网络 IO

// 上行带宽
sum by (instance) (irate(node_network_receive_bytes{instance="xxx",device!~"bond.*?|lo"}[5m])/128)

// 下行带宽
sum by (instance) (irate(node_network_transmit_bytes{instance="xxx",device!~"bond.*?|lo"}[5m])/128)

网卡出/入包

// 入包量
sum by (instance) (rate(node_network_receive_bytes{instance="xxx",device!="lo"}[5m]))

// 出包量
sum by (instance) (rate(node_network_transmit_bytes{instance="xxx",device!="lo"}[5m]))


prometheus 配置 prometheus.yml

global：全局的配置，如果后面的任务没有对特定配置项进行覆盖，这里的选项会生效。 
scrape_interval: 拉取 targets 的默认时间间隔。太频繁会导致 promethues 压力比较大，如果太久，可能会导致某些关键数据漏掉，推荐根据每个任务的重要性和集群规模分别进行配置。
scrape_timeout: 拉取一个 target 的超时时间。
evaluation_interval: 执行 rules 的时间间隔。
external_labels: 额外的属性，会添加到拉取的数据并存到数据库中。


scrape__configs:主要用于配置拉取数据节点，每一个拉取配置主要包含以下参数：

job_name：任务名称
honor_labels： 用于解决拉取数据标签有冲突，当设置为 true, 以拉取数据为准，否则以服务配置为准
params：数据拉取访问时带的请求参数
scrape_interval： 拉取时间间隔
scrape_timeout: 拉取超时时间
metrics_path： 拉取节点的 metric 路径
scheme： 拉取数据访问协议
sample_limit： 存储的数据标签个数限制，如果超过限制，该数据将被忽略，不入存储；默认值为0，表示没有限制
relabel_configs： 拉取数据重置标签配置



告警配置 
可以使用运行参数 -alertmanager.xxx 来配置 Alertmanager， 但是这样不够灵活，无法动态更新加载，以及动态定义告警属性。 
alerting 配置主要用来解决这个问题，它能够更好的管理 Alertmanager, 主要包含 2 个参数：

alert_relabel_configs: 动态修改 alert 属性的规则配置。
alertmanagers: 用于动态发现 Alertmanager 的配置。




使用 Java Client构建Exporter 
io.prometheus:simpleclient:x.y.z
collector
使用HTTP Server 暴露监控指标

io.prometheus:simpleclient_httpserver:x.y.z

HTTPServer server = new HTTPServer(9999);

启动之前调用Collector的register()方法

new YourCollector().register();
new YourCollector2().register();

http://127.0.0.1:9999/metrics

CollectorRegistry
调用Collector实例register()方法时，将该实例保存到CollectorRegistry中
CollectorRegistry负责维护所有的Collector实例
TextFormat

内置的Collector

simpleclient_hotspot 内置了JVM运行状态数据收集 （GC，内存池，JMX，类加载，线程池等） 

io.prometheus:simpleclient_hotspot:x.y.z


业务代码监控埋点
Counter Gauge Summary Histogram

Gauge myGauge = Gauge.build().name("myGauge").help("myGauge help msg").register();

标签定义

Counter

Summary和Histogram 统计和分析样本的分布情况
HTTP请求字节数 响应大小 处理耗时 等统计

Summary 指定统计的分位数

static final Summary requestLatency = Summary.build()
    .quantile(0.5, 0.05)   // 其中0.05为误差
    .quantile(0.9, 0.01)   // 其中0.01为误差
    .name("requests_latency_seconds").help("Request latency in seconds.").register();
    
    
Histogram 默认的分布桶为[.005, .01, .025, .05, .075, .1, .25, .5, .75, 1, 2.5, 5, 7.5, 10]

自定义的桶分布
 static final Histogram requestLatency = Histogram.build()
            .name("requests_latency_seconds").help("Request latency in seconds.")
            .buckets(0.1, 0.2, 0.4, 0.8)
            .register();
            
            


PushGateway集成
io.prometheus:simpleclient_pushgateway:x.y.z
vim颜色及行号设置

prometheus job 和 instance

rate与irate的区别

grafana使用模板变量

dubbo架构及调用模型

dubbo支持的rpc协议及使用场景