线上故障处理
所属分类 architecture
浏览量 1527
根据原文整理
http://www.rowkey.me/blog/2018/11/22/online-debug/
Java应用突然没有响应、响应缓慢,进程突然消失 意料之外的错误
故障处理思路
第一时间恢复回滚并保留现场
保证服务可用 定时重启、限流、降级等
业务负责人、技术负责人、核心研发人员、架构师、运维工程师以及运营人员对问题的原因进行快速分析。
分析的过程首先要考虑系统近期的变化,包括以下方面
a、系统最近是否有发布?
b、服务的使用方是否有运营活动?
c、网络是否有流量波动?
d、最近的业务量是否上升?
e、运营人员是否在系统上做了变动?
f、依赖的基础平台和资源是否进行了发布上线?
g、依赖的其他系统是否进行了发布?
故障的可能原因
1、代码BUG: 逻辑不严谨、连接未释放
2、代码性能: 循环外部调用、未使用批量读取、正则循环等
3、内存泄漏:本地缓存
4、异常流量/攻击:DDOS
5、业务量提升:容量预估失误
6、外部系统问题:数据库、搜索引擎、分布式缓存、消息队列等中间件性能问题,比如CPU、内存、IO指标异常
故障处理三步走
监控 系统及业务监控
分析
解决 系统、程序参数的调整、代码的重构优化 ,bugfix
故障分析基础知识
1、计算机基础知识:计算机网络、操作系统、计算机组成原理
2、java内存管理:垃圾回收算法、垃圾回收器、关键GC参数、JVM内存模型等
3、java代码基准性能测试:可以使用JMH(微基准测试框架)来进行,能够去除JIT热点代码编译对性能的影响
4、HotSpot虚拟机体系结构
5、系统参数调优
6、掌握常用诊断工具、jdk自带诊断工具以及其他诊断工具的使用
7、了解业务系统:总体架构、压力方向、容量预估、系统相关软件的版本、模式以及参数
常用工具
uptime
dmesg|tail
查看最新系统日志。常见的OOM kill 和TCP丢包信息
free -m
查看系统内存使用情况
used包含 Buffer和Cache
top
包含了系统全局的很多指标信息,包括系统负载情况、系统内存使用情况、系统CPU使用情况等
netstat -tanp
查看TCP网络连接情况
vmstat 1
实时性能检测
包括CPU使用率、内存使用、虚拟内存交换情况、IO读写情况等系统核心指标。
r:等待CPU资源的进程数,这个比平均负载load更能体现CPU的繁忙情况;
b:阻塞在不可中断休眠状态的进程数
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
r b swpd free buff cache si so bi bo in cs us sy id wa st
2 0 2006600 152268 0 1474664 0 0 1 99 0 0 7 2 91 1 0
1 0 2006600 151972 0 1474672 0 0 0 308 4977 4272 28 2 71 0 0
1 0 2006600 152096 0 1474676 0 0 0 0 4934 4256 27 1 71 0 0
1 0 2006600 152064 0 1474676 0 0 0 664 4910 4265 28 1 71 0 0
4 3 2006600 151148 0 1475408 0 0 0 121 5252 4478 38 3 58 2 0
sysstat
sysstat套件 包含 sar iostat mpstat pidstat等工具。centos系统安装 yum install sysstat
mpstat -P ALL 1
查看每个CPU的使用情况。如果有一个CPU占用率特别高,说明有可能是一个单线程应用程序引起。
sar -n DEV 1
查看网络设备的吞吐率。 判断网络设备是否已经饱和
sar -n TCP,ETCP 1
查看TCP的连接状态。
active/s 主动发起的连接数目(connect)
passive/s 被动发起的连接数目(accept)
retrans/ 重传的数量,能够反映网络状况和是否发生丢包
iostat -xz 1
查看磁盘IO情况。
await(ms):IO操作的平均等待时间,是应用程序在和磁盘交互时,需要消耗的时间,包括IO等待和实际操作的耗时
avgqu-sz:向设备发出的平均请求数量
%util:设备利用率
avg-cpu: %user %nice %system %iowait %steal %idle
6.96 0.00 1.68 0.78 0.00 90.58
Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
sda 0.01 0.48 0.23 7.39 5.37 383.90 102.23 0.09 13.12 30.51 12.59 12.37 9.42
dm-0 0.00 0.00 0.22 7.84 5.29 383.69 96.54 0.18 21.96 30.75 21.71 11.68 9.41
dm-1 0.00 0.00 0.02 0.03 0.07 0.14 8.00 0.01 117.28 23.19 164.45 2.24 0.01
dm-2 0.00 0.00 0.00 0.00 0.01 0.07 62.20 0.00 719.99 11.50 730.32 2.32 0.00
JDK诊断工具
jstack
堆栈跟踪工具
jmap
java内存映射工具(Java Memory Map)查看堆内存信息
jhat
java堆分析工具(Java Heap Analysis Tool),用于分析java堆内存中的对象信息
jinfo
java配置信息工具(Java Configuration Information),查看java进程配置信息,也可以动态修改jvm参数
jstat
jvm统计监测工具(JVM Statistics Monitoring Tool),查看JVM的性能统计信息,包括gc统计信息
jcmd
java命令行(Java Command),用于向JVM发送诊断命令请求。
jmap官方标注是unsupported,jcmd可以作为其替代工具
visualvm
通过JMX连接jvm进程,查看JVM的线程、内存、类等信息。可以安装各种插件(通过CATALINA_OPTS开启tomcat jmx接口)
jconsole
功能类似visualvm,可以显示具体的线程堆栈信息以及内存中各个年代的占用情况,并支持直接远程执行MBEAN
greys-anatomy
在线诊断工具,通过动态修改字节码达到无需重启jvm添加日志、监控方法耗时等
arthas
阿里开源的java诊断工具箱,基于greys-anatomy而来,包括在线诊断、反编译字节码、查看最耗资源的java线程等
jwebap
JavaEE性能检测框架,基于ASM增强字节码实现。
支持:Http请求、JDBC连接、method的调用轨迹以及次数、耗时的统计。
二次开发的suishen-jwebap,加入对java8的支持以及redis连接的监控
故障分析思路
1、根据日志输出的异常信息定位问题,需要区分Tomcat中的catalina.out(标准输出和错误)和localhost.xx.log(应用初始化的日志,错误则无法启动)
2、磁盘是否已满(df -h)?-->删除多余日志
3、流量是否异常?-->限流、降级、扩展服务节点、架构优化
4、外部系统问题?-->数据库、搜索引擎、分布式缓存、消息队列的故障解决、性能优化、分区设计等
5、应用的cpu、内存、IO
CPU分析
无限空循环 耗cpu的纯计算代码 频繁GC 多线程的上下文切换 JIT编译
定位CPU使用率高的线程
top -p PID -H
jstack PID 打印繁忙进程的堆栈信息
通过printf %0x PID 转换id为16进制,在堆栈信息中查找对应的堆栈信息
jstat -gcutil PID 查看GC情况,是否GC引起了CPU飙高
JVM参数 -xx:+PrintCompliation ,查看是否JIT编译引起CPU飙高
内存分析
频繁GC、响应缓慢;OOM、堆内存、永久代内存、本地线程内存
1、堆外内存:JNI、Deflater/Inflater、DerectByteBuffer。
通过vmstat、top、pidstat等查看swap和物理内存消耗情况。
通过google-perftools来追踪JNI、Deflater这种调用资源的使用状况
2、堆内存:创建的对象、全局集合、缓存、ClassLoader、多线程
a、查看JVM内存使用状况:jmap -heap PID
b、查看JVM内存存活的对象:jmap -histo:live PID
c、dump heap里所有对象,死和活的:jmap -dump:format=b,live,file=xx.hprof PID
d、使用eclipse mat或者jhat打开堆dump的文件,根据内存中的具体对象使用情况分析
e、VJTools中的vjmap可以分代打印出堆内存对象实例占用信息
磁盘IO分析
IO性能差:大量的随机读写、设备慢、文件太大
1、iostat -xz 1 查看磁盘IO情况
2、 r/s、w/s、rkB/s、wkB/s等指标过大,可能会引起性能问题
3、await过大,可能是硬件设备遇到瓶颈或者出现故障。一次IO操作一般操作20ms说明磁盘压力过大
4、avgqu-sz大于1,可能是硬件设备已经饱和
5、%util越大表示磁盘越繁忙,100%表示已经饱和
6、通过strace工具定位对文件IO的系统调用
网络IO分析
1、netstat -anpt 查看网络的连接状况。
当TIMEWAIT或者CLOSEWAIT连接过多时,会影响应用的响应速度。
前者需要优化内核参数,后者一般是代码BUG没有释放连接
2、使用tcpdump来具体分析网络IO的数据。tcpdump出的文件直接打开是一堆二进制数据,
可以使用Wireshark查看具体的连接以及数据的内容。tcpdump -i ech0 -w tmp.cap -tnn dst port 8080
3、sar -n DEV 查看吞吐率和吞吐数据包数,判断是否超过网卡限制
IO分析tips
1、%iowait 在linux的计算为cpu空闲、并且仍有未完成的IO请求的时间占总时间的比例
2、%iowait升高并不一定代表IO设备有瓶颈。需要结合其他指标来判断,如await(io操作等待耗时),svctm(io操作服务耗时)等
3、avgqu-sz是按照单位的平均值,所以不能反映瞬间的IO峰值
cpu使用优化
1、不要存在一直运行的线程(无限循环),可以使用sleep休眠一段时间。
这种情况普遍存在于一些pull方式消费数据的场景下。
当一次pull没拿到数据的时候建议sleep一下,再做下一次pull。
2、轮询的时候可以使用wait/notify机制代替轮询
3、避免正则表达式匹配、过多的计算。例如避免使用string的format、spilt、replace方法;
避免使用正则去判断邮箱格式(有时候会造成死循环);
避免序列化/反序列化
4、使用线程池,减少线程数以及线程的切换
5、多线程对于锁的竞争可以考虑减小锁的粒度(使用ReetrantLock)、
拆分锁(类似ConcurrentHashMap分bukket上锁)或者使用CAS、ThreadLocal、不可变对象等无锁技术。
此外,多线程代码的编写最好使用JDK提供的并发包、Executors框架以及ForkJoin等,
此外Disruptor和Actor在合适的场景也可以使用
6、结合JVM和代码一起分析,避免产生频繁的GC,尤其是Full GC
内存使用优化
1、使用基本数据类型而不是其包装类型能够节省内存
2、尽量避免分配大对象。大对象分配的代价以及初始化的代价很大,不同大小的大对象可能导致java堆碎片,尤其是CMS
3、避免改变数据结构大小。如避免改变数组或array backed collections/containers的大小;
对象构建(初始化)时,最好显式批量定数组大小;改变大小导致不必要的对象分配,可能导致java堆碎片
4、避免保存重复的string对象。同时也需要小心String.substring()与String.intern()的使用,中间过程会生成不少字符串
5、尽量不要使用finalizer
6、释放不必要的引用。ThreadLocal使用完记得释放以防止内存泄漏,各种stream使用完也记得close
7、使用对象池避免无节制创建对象,造成频繁GC。但也不要随便使用对象池,除非像连接池、线程池这种初始化/创建资源消耗比较大的场景
8、缓存失效算法,可以考虑使用SoftReference、WeakReference保存缓存对象
9、谨慎热部署/加载的使用,尤其动态加载类等
10、打印日志时不要输出文件名、行号,因为日志框架一般都是通过打印线程堆栈实现,生成大量的string。
此外打印日志时,先判断对应级别的日志是否打开再做操作,否则也会生成大量的string
IO使用优化
1、考虑使用异步写入代替同步写入,可以借鉴redis的aof机制
2、利用预读取或者缓存,减少随机读
3、尽量批量写入,减少IO的次数和寻址
4、使用数据库代替文件存储
5、使用异步IO、多路复用IO/时间驱动IO代替同步阻塞IO
6、使用协程提高网络IO性能:Quasar
上一篇
下一篇
elasticsearch5.0索引设置
elasticsearch5.0索引监控
elasticsearch5.0索引状态管理
elasticsearch aerospike kafka副本数设置
kafka副本机制
网络杠精定律