Java服务假死之生产事故的排查与优化问题

2025-12-22 23:02:46

一、现象

在服务器上通过curl命令调用一个Java服务的查询接口，半天没有任何响应。关于该服务的基本功能如下：

1、该服务是一个后台刷新指示器的服务，即该服务会将用户需要的指示器数据提前计算好，放入redis中，当用户请求指示器数据时便从redis中获取；

2、指示器涉及到的模型数据更新时会发送消息到kafka，该服务监听kafka消息，收到消息后触发指示器刷新任务；

3、对于一些特殊的指示器，其涉及的项目和模型较多，且数据量比较大，无法通过kafka消息来触发刷新，否则一直处于刷新过程中，便每隔10分钟定时进行指示器的刷新，以尽量保证的数据的及时性；

4、该服务不对外提供接口，只预留一些指示器刷新的监控接口，供内部开发人员使用；

5、相同代码还部署了另外一个服务对外开放，用户请求指示器数据时就向其请求，如果redis缓存中有便直接返回，没有的话那个服务便实时计算。

二、排查

1、打印堆栈

　　看到上述的现象，第一反应就是服务挂了，于是便通过jps命令查看该服务的进程号，发现服务还在。那么会不会是tomcat的线程被占满，没有线程去响应请求，但是按理说是不会的，因为该服务并没有对外提供接口。抱着好奇心还是通过jstack pid命令打印出堆栈来查看，如下图所示。发现当前只有10个tomcat的线程，并且都处于空闲状态，那么就不可能因为线程被占满而导致curl接口没有响应。

2、查看socket连接

　　就在一筹莫展之时，同事告诉我zabbix监控那边会每隔一分钟调用该服务的查询接口来获取当前的刷新任务数，从而展示在zabbix上进行实时监控。这时赶紧调用netstat -anp|grep 9097命令查看一下当前是否有请求，发现zabbix那边的请求全部卡死了。

这些卡死的请求全部都在ESTABLISHED状态，基本上把tomcat的socket连接全部占满了，这下终于明白为啥调用查询接口，服务没有响应了，但是为什么这些查询接口会卡死呢？

3、查看JVM基本信息

　　想要弄明白这个问题，还是要查看一下JVM内部的信息，是否内存溢出或者CPU占满，这里采用arthas插件，下载arthas后就可以通过java -jar arthas-boot.jar直接启动。

该服务是第一个，选择1按enter键进入

通过dashboard命令查看服务运行的基本信息

　　从上图可以看出，CPU占用率不是很高，但是内存占用率比较高，特别是老年代，该服务总共分配了20G的内存，新生代10G，老年代10G 。服务启动不久后就进行了Full GC，很快老年代就被占满，这说明有很多大对象在内存中，并且没有被Minor GC回收掉，进入了老年代。

4、查看GC日志

　　为了验证我的猜想，通过jstat -gcutil221446 1s命令每隔1s将GC信息实时打印出来，如下图所示。

　　E表示Eden区的内存占用率，O表示老年代的内存占用率，YGC表示年轻代GC的次数，YGCT表示年轻代GC的时间总和，FGC表示Full GC的次数，FGCT表示Ful GC的时间总和。从上图可以看出，在195次Full GC后，Eden区仅仅过了4秒内存就基本上满了，这时又发生了Full GC，即第196次Full GC。

　　从上图可以看出，用两次的FGCT相减，即4301减去4277，可以知道196次Full GC花了大约24秒，这期间服务基本上处于停滞的状态，而且从Full GC后的老年代内存占用率可以看出，并没有回收老年代多少内存，占用率依旧很高。这意味着几秒后又将进行Full GC操作，反复循环。由此看出，该服务基本上一直处于卡死的状态，内存将要溢出。那么，到底是什么对象长期占据着内存呢？

5、分析dump文件

　　这时想起，该服务为了提高相似指示器的计算效率，使用了google的缓存guava。每次计算完指示器后会将该指示器涉及到的模型数据存储在缓存中，下次计算相同模型的指示器时可以直接从内存中获取，而不需要访问数据库，因为数据量比较大，所以可以显著提升查询指示器的效率。guava缓存的失效时间是30分钟，也就是说30分钟内的Full GC是无法回收多少内存的。为了证明我的猜想，就在服务启动参数上增加了-XX:+HeapDumpOnOutOfMemoryError。这样在服务内存溢出时会自动生成dump文件，将dump文件导出，通过VisualVM就可以分析出究竟是什么占据着内存。

　　由于我的电脑内存有限，无法打开20G的dump文件，就将服务内存调整为3G，guava缓存分配2G，运行一段时间就生成了dump文件，通过VisualVm打开，如下图所示。

从上图可以看出，byte数组占据了46%的内存空间，点击byte[]实例可以看到具体是哪些数据占据了内存，如下图所示。

可以看到byte数组有大量的LazyString类型，即com.mysql.cj.util.LazyString，点击详情查看。

　　发现好多ResultSet没有被释放，这就是查询指示器模型数据的返回结果。由于这些模型数据都被缓存对象引用着，而且缓存的有效期是30分钟，所以新生代GC无法回收，直到进入老年代，如果没有超过30分钟缓存有效期Full GC也不会回收，所以内存被占满。由于这些指示器计算都是并发的，30个线程同步查询数据会导致内存中有大量的数据缓存对象，从而导致内存溢出。

三、优化

　　针对以上分析出的原因，有以下两点优化建议：

1、不再使用guava缓存，每次都实时查询指示器的数据。因为该服务是后台刷新服务，将计算的好指示器结果存入redis缓存，不需要直接给用户提供服务。因此，该服务不需要计算很快，只需要正确即可，取消guava缓存后新生代GC会很快回收掉不再使用的大对象，使得这些对象不会进入老年代引发Full GC，即使进入老年代也能通过Full GC回收掉，不至于内存溢出。

2、降低线程的并发数。虽然不使用缓存会提高内存的使用率，但是如果并发数过高，并且指示器数据量过大，那么在某一瞬间内存也会被占满，且不会被Minor GC回收掉，从而进入老年代，直到触发Full GC。

　　只有做到以上两点，并且适当调大服务内存，这样才会尽量让大量的垃圾数据在年轻代就GC掉，而不是进入到老年代引发Full GC。

　　上图是优化后的GC日志，可以看出，新生代GC后回收了很多垃圾，并且很少一分部分对象会进入到老年代，这样会减少Full GC的次数，从而解决系统卡死的问题。

四、总结

通过本次事故的排查，对于服务假死这样的现象，一般的排查过程为：

1、查看服务进程是否存在；

2、根据进程号查看CPU占用率和内存占用率，这里可以使用arthas这样第三方的插件，也可以使用jdk自带的工具，如jstack，jstat，jmap等；

3、查看GC日志；

4、如果有内存溢出情况，可以查看dump文件找出溢出点。

到此这篇关于Java服务假死之生产事故的排查与优化问题的文章就介绍到这了,更多相关Java服务假死内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

java之生产故障定位Arthas问题

目录生产故障定位Arthas Arthas(阿尔萨斯)能为你做什么? java诊断工具Arthas(watch命令)方法观察神器 watch 参数说明生产故障定位Arthas Arthas(阿尔萨斯)能为你做什么? Arthas 是Alibaba开源的Java诊断工具,深受开发者喜爱.当你遇到以下类似问题而束手无策时,Arthas可以帮助你解决: 这个类从哪个 jar 包加载的?为什么会报各种类相关的 Exception? 我改的代码为什么没有执行到?难道是我没 commit?分支搞错了?
Java服务假死后续之内存溢出的原因分析

目录一.现象分析二.原因排查三.故障解决一.现象分析上篇博客说到,Java服务假死的原因是使用了Guava缓存,30分钟的有效期导致Full GC无法回收内存.经过优化后,已经不再使用Guava缓存,实时查询数据.从短期效果来看,确实解决了无法回收内存的问题,但是服务运行几天后,发现内存又逐渐被占满,Full GC后只能回收一小部分. 从上图可以看出,一次Full GC后,老年代基本上没有回收多少内存,占比从99.86%降到99.70%. 二.原因排查到底是什么对象占据这么大的内存,
Java服务假死之生产事故的排查与优化问题

目录一.现象二.排查 1.打印堆栈 2.查看socket连接 3.查看JVM基本信息 4.查看GC日志 5.分析dump文件三.优化四.总结一.现象在服务器上通过curl命令调用一个Java服务的查询接口,半天没有任何响应.关于该服务的基本功能如下: 1.该服务是一个后台刷新指示器的服务,即该服务会将用户需要的指示器数据提前计算好,放入redis中,当用户请求指示器数据时便从redis中获取: 2.指示器涉及到的模型数据更新时会发送消息到kafka,该服务监听kafka消息,收到消息
Spring Boot假死诊断实战记录

这两天遇到一个服务假死的问题,具体现象就是服务不再接收任何请求,客户端会抛出Broken Pipe. 检查系统状态执行top,发现CPU和内存占用都不高,但是通过命令 netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}' 发现有大量的CLOSE_WAIT端口占用,继续调用该服务的api,等待超时之后发现CLOSE_WAIT的数量也没有上升,也就是说服务几乎完全僵死. 检查JVM情况怀疑可能是线程有死锁,决定先
Tomcat进程假死问题排查

目录 1.网络 1.1 检查nginx的网络情况 1.2 检查tomcat的网络情况 2.Jvm内存溢出 2.1为什么会发生内存泄漏 2.2快速定位问题 2.3 jstack查看tomcat是否出现死锁 2.4 jstat查看gc运行情况 2.5 jmap获取内存快照 3. jvm GC 时间过长,导致应用暂停 4. load 太高,已经超出服务的极限 5. 大量tcp 连接 TIME_WAIT 5.2.保持和server的长连接: 5.3. proxy_set_header 配置注意事项 6.
简单几招让你的电脑不再假死机

死机,相信是很多朋友习以为常的事.一发现死机,我们通常都会直接热启动或按"Reset",但孰不知,有时电脑并未真正死机,只不过是处于一种假死的状态.按下数字键区的"Num Lock"键,如果指示灯有反应,则说明是假死机.那我们该如何处理真.假死机呢? 一.修改注册表,远离假死机困扰很多假死机是由于运行的程序没有响应造成的.比如你在同一时间打开或启动的程序过多,导致系统资源消耗严重,就会出现程序停止响应的情况,这时我们可以按下"Ctrl+Alt+Del&q
IIS应用程序池自动停止关闭假死处理集锦

1:没有打SP1补丁的时候会出现这个IIS6.0假死问题,但现在微软都在自动更新里面出补丁了,一般你打好最新补丁后是不会出现此问题了 2:你限制了应用池的资源过小 3:你限制了内存使用 4:就是服务器自身内存太小 5:就是ACCESS数据库太大或查询太多 6:不同网站用不同应用池 7:设置回收时间,很多人以为设置回收池越短越好,其实是错误的 8:windows 2003系统iis6访问本机的站点时提示"Service Unavailable": 查看iis的应用程序池,状况提示为:未
IIS假死的解决方法缩短IIS应用池回收时间来实现减少IIS假死

IIS日志: 应用程序:ISAPI 'C:\WINDOWS\system32\inetsrv\asp.dll' 报告它自身有问题,原因如下: 'ASP 不正常,因为执行请求的 100% 被挂起,而且请求队列已经使用了 0%.'. 关于 server 2003+IIS6 出现 'ASP 不正常,因为执行请求的 100% 被挂起现像如下: 站点无法打开,或者打开很慢.HTML可以打开.重新启动或者回收应用程序池可恢复.但过一段时间又会出现日志里会有: ISAPI 'C:\WINDOWS\syst
服务器iis假死的原因及解决方法

打开IIS 你就会看到应用程序池,默认只有一个应用程序池,查看应用程序池的属性,会发现他的回收时间,默认多达,1740分钟,就是说,需要在1740分钟后才回收此应用程序池,如果在这个时间内,达到请求的最高限制,那么就会出现ASP假死的情况,这个就是大型网站出现假死的情况,反而,小型网站确不会出现这样的情况,因为他请求少,流量少,还没达到限制数量.当然要看你的服务器上网站数目而定. 单个网站解决方法: 把应用程序池回收时间缩短到300-600分钟,其间回收过程中,需要占用一点CPU资源,没办法,为
asp运行特别慢之iis6假死现象的一种解决方法

前段时间被WINDOWS2003SERVER的IIS6.0假死问题差点搞死了,琢磨了N个通宵之后才磨出了办法,下面的东西希望能给有相同问题的朋友些帮助: 大家在使用iis6时..如果装了动网论坛.肯定有出现过iis6假死现像..就是asp网页打开慢..但是iis却是正常的..静态网页打开速度一样..这时候..我一直是重启的方法..查了官方的资料结果没有...据官方资料说..win2003很快就要打这个补丁了..是iis6对access驱动支持不理像..也算是一个bug吧..由于我的服务器虚拟主机
win2003 iis6 iis假死

IIS日志: 应用程序:ISAPI 'C:\WINDOWS\system32\inetsrv\asp.dll' 报告它自身有问题,原因如下: 'ASP 不正常,因为执行请求的 100% 被挂起,而且请求队列已经使用了 0%.'. 关于server 2003+IIS6 出现 'ASP 不正常,因为执行请求的 100% 被挂起现像如下: 站点无法打开,或者打开很慢.HTML可以打开.重新启动或者回收应用程序池可恢复.但过一段时间又会出现日志里会有: ISAPI 'C:\WINDOWS\syste