Grafana 告警设置
所属分类 grafana
浏览量 318
https://grafana.com/products/cloud/alerting/
https://grafana.com/docs/grafana/latest/alerting/
How Grafana Alerting works
Labels match alert instances to notification policies and silences and can be used to group your alerts by severity.
Notification policy is the set of rules for where, when, and how the alerts get routed.
Notification policies have a tree structure, where each policy can also match specific alert labels.
Contact points define how your contacts are notified when an alert fires.
选择要监控的指标
CPU利用率、内存使用率、网络流量等
设置告警条件
这些条件将决定何时触发告警通知 ,可以设置阈值、持续时间以及其他相关参数
选择告警通知方式
邮件、短信、webhook等
保存并启用告警规则
选择要监控的指标时,应该根据实际情况和需求进行有针对性的选择。不要一味地监控过多的指标,以免信息过载。
设置告警条件时,考虑指标的波动性和峰值情况。太过敏感的条件可能会导致频繁触发警报通知,而太不敏感可能会导致错过重要的警报信号。
选择告警通知方式时,应根据紧急程度和重要性进行权衡。有些情况下,即时的短信通知可能更为合适,而其他情况下,电子邮件通知可能更为便捷。
evaluate every 1m for 5m
evaluate every
how often the alert will be evaluated to see if fired
evaluate for
Once a condition is breached, the alert goes into the Pending state.
If the condition remains breached for the duration specified, the alert transitions to the Firing state, else it reverts back to the Normal state.
每分钟计算一次是否超过阀值,如果超过阀值的时间持续5分钟,就触发告警通知,如果没有的话,从ok 状态转为 pedding状态
Evaluate every 明检测频率 ,必须是10s的倍数
For: 报警触发前,条件为真需要持续的时间
告警状态变化
Normal 》Padding 》Firing
Create a Grafana managed alerting rule
https://grafana.com/docs/grafana/v8.5/alerting/unified-alerting/alerting-rules/create-grafana-managed-rule/
https://www.bookstack.cn/read/Grafana-8.5-en/36e63104e080a0c7.md
Annotations and labels for alerting rules
https://grafana.com/docs/grafana/v8.5/alerting/unified-alerting/alerting-rules/alert-annotation-label/
https://www.bookstack.cn/read/Grafana-8.5-en/53b1337424ed86a6.md
Manage alerting rules
https://grafana.com/docs/grafana/v8.5/alerting/unified-alerting/alerting-rules/rule-list/
https://www.bookstack.cn/read/Grafana-8.5-en/dea7378cb0a95ded.md
新建告警规则
new alert rule
Rule name
flink数据同步任务数
folder=Alert , group=flink_group
count(rate(flink_jobmanager_job_runningTime[5m]) >0)
classic condition
last() of A is BELOW 6
details for alert
message (这个是定制内容 ,给webhook 接口传递额外参数用的)
{"title":"flink 任务 数量 小于 6","serviceName":"Flink","alertLevel":"normal"}
Custom Labels
type=flink
http://localhost:9000/alerting/list
过滤条件
state firing normal pedding
rule-type alert recording
展示形式 view as
list
grouped ( folder group 分组)
state 根据 状态 分组展示
Grafana在没有数据的情况下也会触发告警
T-1日 15点0分 到 15点10分有数据 , 15点15分后没数据 , 图表有显示 nodata
T日 早上 11点 20分 收到告警邮件
告警规则配置页面
No Data & Error Handling
if no data or all values are null
set state to
无数据选项 说明
No Data 设置报警规则状态为NoData,这会触发通知
Alerting 设置报警规则状态为Alerting
Keep Last State 保持当前报警规则的状态
Ok 设置报警规则状态为OK
Execution errors or timeouts
错误或超时选项 说明
Alerting 设置报警规则状态为Alerting
Keep Last State 保持当前报警规则的状态
若数据不稳定,建议设置为Keep Last State
Evaluate every 明检测频率 ,必须是10s的倍数
For: 报警触发前,条件为真需要持续的时间
参考资料
Grafana告警体系配置
https://blog.csdn.net/qq_38571773/article/details/128735955
上一篇
下一篇
skywalking PromQL 服务 grafana 整合 图表配置
flinkcdc3.0 checkpoint 和 restart 策略 配置及测试
flink job 快照机制 恢复机制 checkpoint 和 savepoint
PromQL 基础
杭州登山路线2024
zookeeper Monitor prometheus + grafana