java排查一个线上死循环cpu暴涨的过程分析

2025-04-04 08:19:53

问题，打一个页面cpu暴涨，打开一次就涨100%,一会系统就卡的不行了。

排查方法，因为是线上的linux,没有用jvm监控工具rim链接上去。

只好用命令排查：

top cpu排序，一个java进程cpu到500%了，什么鬼.....

查到对应java进程

jps || ps -aux | grep 端口

pid=13455

查看进程中线程使用情况 T排序查看cpu占用time最高的线程编号

top -Hp 13455

有个线程9877 的时间一直在爆涨

获取线程十六进制地址9877 （十六进制一定要小写）

printf "%x\n" 9877

执行 jstack 13455|grep -10 2695（线程十六进制号）

如果想查看完整信息，可导出文本，查找

jstack -l 9839 > jstack.log-9893

"qtp750044075-25" #25 prio=5 os_prio=0 tid=0x00007f83354e5000 nid=0x2695 runnable [0x00007f830e5d8000]
 java.lang.Thread.State: RUNNABLE
at java.text.DateFormatSymbols.<init>(DateFormatSymbols.java:145)
at sun.util.locale.provider.DateFormatSymbolsProviderImpl.getInstance(DateFormatSymbolsProviderImpl.java:85)
at java.text.DateFormatSymbols.getProviderInstance(DateFormatSymbols.java:364)
at java.text.DateFormatSymbols.getInstance(DateFormatSymbols.java:340)
at java.util.Calendar.getDisplayName(Calendar.java:2110)
at java.text.SimpleDateFormat.subFormat(SimpleDateFormat.java:1125)
at java.text.SimpleDateFormat.format(SimpleDateFormat.java:966)
at java.text.SimpleDateFormat.format(SimpleDateFormat.java:936)
at java.text.DateFormat.format(DateFormat.java:345)
at com.huiwan.gdata.modules.gdata.util.TimeUtil.getDay(TimeUtil.java:383)
at com.huiwan.gdata.modules.gdata.publ.retain.service.impl.Retain3ServiceImpl.act(Retain3ServiceImpl.java:119)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at org.springframework.aop.support.AopUtils.invokeJoinpointUsingReflection(AopUtils.java:317)
 .......略
 Locked ownable synchronizers:
- None

定住到

Retain3ServiceImpl.java:119

这行，马的，有人写了个while循环，用字符串时间比较，之前表是date类型，后改为datetime类型，多了00:00:00永远也没一样的时间，一直在那while.....还搞了个json对象默认加0......

改了这里的代码，就好了，cpu就没上去了.

补充知识：记一次线上Java程序导致服务器CPU占用率过高的问题排除过程

1、故障现象

客服同事反馈平台系统运行缓慢，网页卡顿严重，多次重启系统后问题依然存在，使用top命令查看服务器情况，发现CPU占用率过高。

2、CPU占用过高问题定位

2.1、定位问题进程

使用top命令查看资源占用情况，发现pid为14063的进程占用了大量的CPU资源，CPU占用率高达776.1%，内存占用率也达到了29.8%

[ylp@ylp-web-01 ~]$ top
top - 14:51:10 up 233 days, 11:40, 7 users, load average: 6.85, 5.62, 3.97
Tasks: 192 total, 2 running, 190 sleeping, 0 stopped, 0 zombie
%Cpu(s): 97.3 us, 0.3 sy, 0.0 ni, 2.5 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem : 16268652 total, 5114392 free, 6907028 used, 4247232 buff/cache
KiB Swap: 4063228 total, 3989708 free, 73520 used. 8751512 avail Mem
 PID USER  PR NI VIRT RES SHR S %CPU %MEM  TIME+ COMMAND                        

14063 ylp  20 0 9260488 4.627g 11976 S 776.1 29.8 117:41.66 java

2.2、定位问题线程

使用ps -mp pid -o THREAD,tid,time命令查看该进程的线程情况，发现该进程的多个线程占用率很高

[ylp@ylp-web-01 ~]$ ps -mp 14063 -o THREAD,tid,time
USER  %CPU PRI SCNT WCHAN USER SYSTEM TID  TIME
ylp  361 - - -   -  -  - 02:05:58
ylp  0.0 19 - futex_ -  - 14063 00:00:00
ylp  0.0 19 - poll_s -  - 14064 00:00:00
ylp  44.5 19 - -   -  - 14065 00:15:30
ylp  44.5 19 - -   -  - 14066 00:15:30
ylp  44.4 19 - -   -  - 14067 00:15:29
ylp  44.5 19 - -   -  - 14068 00:15:30
ylp  44.5 19 - -   -  - 14069 00:15:30
ylp  44.5 19 - -   -  - 14070 00:15:30
ylp  44.5 19 - -   -  - 14071 00:15:30
ylp  44.6 19 - -   -  - 14072 00:15:32
ylp  2.2 19 - futex_ -  - 14073 00:00:46
ylp  0.0 19 - futex_ -  - 14074 00:00:00
ylp  0.0 19 - futex_ -  - 14075 00:00:00
ylp  0.0 19 - futex_ -  - 14076 00:00:00
ylp  0.7 19 - futex_ -  - 14077 00:00:15

从输出信息可以看出，14065~14072之间的线程CPU占用率都很高

2.3、查看问题线程堆栈

挑选TID为14065的线程，查看该线程的堆栈情况，先将线程id转为16进制，使用printf "%x\n" tid命令进行转换

[ylp@ylp-web-01 ~]$ printf "%x\n" 14065

36f1

再使用jstack命令打印线程堆栈信息，命令格式：jstack pid |grep tid -A 30

[ylp@ylp-web-01 ~]$ jstack 14063 |grep 36f1 -A 30
"GC task thread#0 (ParallelGC)" prio=10 tid=0x00007fa35001e800 nid=0x36f1 runnable
"GC task thread#1 (ParallelGC)" prio=10 tid=0x00007fa350020800 nid=0x36f2 runnable
"GC task thread#2 (ParallelGC)" prio=10 tid=0x00007fa350022800 nid=0x36f3 runnable
"GC task thread#3 (ParallelGC)" prio=10 tid=0x00007fa350024000 nid=0x36f4 runnable
"GC task thread#4 (ParallelGC)" prio=10 tid=0x00007fa350026000 nid=0x36f5 runnable
"GC task thread#5 (ParallelGC)" prio=10 tid=0x00007fa350028000 nid=0x36f6 runnable
"GC task thread#6 (ParallelGC)" prio=10 tid=0x00007fa350029800 nid=0x36f7 runnable
"GC task thread#7 (ParallelGC)" prio=10 tid=0x00007fa35002b800 nid=0x36f8 runnable
"VM Periodic Task Thread" prio=10 tid=0x00007fa3500a8800 nid=0x3700 waiting on condition 

JNI global references: 392

从输出信息可以看出，此线程是JVM的gc线程。此时可以基本确定是内存不足或内存泄露导致gc线程持续运行，导致CPU占用过高。

所以接下来我们要找的内存方面的问题

3、内存问题定位

3.1、使用jstat -gcutil命令查看进程的内存情况

[ylp@ylp-web-01 ~]$ jstat -gcutil 14063 2000 10

 S0  S1  E  O  P  YGC  YGCT FGC FGCT  GCT
 0.00 0.00 100.00 99.99 26.31  42 21.917 218 1484.830 1506.747
 0.00 0.00 100.00 99.99 26.31  42 21.917 218 1484.830 1506.747
 0.00 0.00 100.00 99.99 26.31  42 21.917 219 1496.567 1518.484
 0.00 0.00 100.00 99.99 26.31  42 21.917 219 1496.567 1518.484
 0.00 0.00 100.00 99.99 26.31  42 21.917 219 1496.567 1518.484
 0.00 0.00 100.00 99.99 26.31  42 21.917 219 1496.567 1518.484
 0.00 0.00 100.00 99.99 26.31  42 21.917 219 1496.567 1518.484
 0.00 0.00 100.00 99.99 26.31  42 21.917 220 1505.439 1527.355
 0.00 0.00 100.00 99.99 26.31  42 21.917 220 1505.439 1527.355
 0.00 0.00 100.00 99.99 26.31  42 21.917 220 1505.439 1527.355

从输出信息可以看出，Eden区内存占用100%，Old区内存占用99.99%，Full GC的次数高达220次，并且频繁Full GC，Full GC的持续时间也特别长，平均每次Full GC耗时6.8秒（1505.439/220）。根据这些信息，基本可以确定是程序代码上出现了问题，可能存在不合理创建对象的地方

3.2、分析堆栈

使用jstack命令查看进程的堆栈情况

[ylp@ylp-web-01 ~]$ jstack 14063 >>jstack.out

把jstack.out文件从服务器拿到本地后，用编辑器查找带有项目目录并且线程状态是RUNABLE的相关信息，从图中可以看出ActivityUtil.java类的447行正在使用HashMap.put()方法

3.3、代码定位

打开项目工程，找到ActivityUtil类的477行，代码如下：

找到相关同事了解后，这段代码会从数据库中获取配置，并根据数据库中remain的值进行循环，在循环中会一直对HashMap进行put操作。

查询数据库中的配置，发现remain的数量巨大

至此，问题定位完毕。

以上这篇java排查一个线上死循环cpu暴涨的过程分析就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我们。

Spring如何解决循环依赖的问题

前言在面试的时候这两年有一个非常高频的关于spring的问题,那就是spring是如何解决循环依赖的.这个问题听着就是轻描淡写的一句话,其实考察的内容还是非常多的,主要还是考察的应聘者有没有研究过spring的源码.但是说实话,spring的源码其实非常复杂的,研究起来并不是个简单的事情,所以我们此篇文章只是为了解释清楚Spring是如何解决循环依赖的这个问题. 什么样的依赖算是循环依赖? 用过Spring框架的人都对依赖注入这个词不陌生,一个Java类A中存在一个属性是类B的一个对象,那么我
JDK1.8中ConcurrentHashMap中computeIfAbsent死循环bug问题

死循环问题的提出:https://bugs.openjdk.java.net/browse/JDK-8062841 map.computeIfAbsent("AaAa",key->map.computeIfAbsent("BBBB",key2->42)); computeIfAbsent在1.8中才有的方法 computeIfAbsent意思是:key不存在时候,调用mappingFunction函数结果作为value值 debug 两个key的hash
java排查一个线上死循环cpu暴涨的过程分析

问题,打一个页面cpu暴涨,打开一次就涨100%,一会系统就卡的不行了. 排查方法,因为是线上的linux,没有用jvm监控工具rim链接上去. 只好用命令排查: top cpu排序,一个java进程cpu到500%了,什么鬼..... 查到对应java进程 jps || ps -aux | grep 端口 pid=13455 查看进程中线程使用情况 T排序查看cpu占用time最高的线程编号 top -Hp 13455 有个线程9877 的时间一直在爆涨获取线程十六进制地址9877 (十六
Java详解线上内存暴涨问题定位和解决方案

前因: 因为REST规范,定义资源获取接口使用GET请求,参数拼接在url上. 如果按上述定义,当参数过长,超过tomcat默认配置 max-http-header-size :8kb 会报一下错误信息: Request header is too large 可以修改springboot配置,调整请求头大小 server: max-http-header-size: xxx 后果: 如果max-http-header-size设置过大,会导致接口吞吐下降,jvm oom,内存泄漏. 因为tom
java == 引发的线上异常详解

今天分享遇到的一个线上的 bug,线上代码: class Scratch { public static void main(String[] args) { JSONArray arrays = JSONUtil.parseArray("[{'type':1},{},{'type':2},{'type':2}" + ",{'name':'zhangsan'},{'type':1},{'type':1},{'type':1}]"); List<User>
线上Spring CPU 高负载解决思路详解

目录引言定位问题日志搜索监控看板 ThreadDump 优化事后反思引言背景: 在某一天,运营同事突然发现运营看板好几天没有更新数据了, 然后找了过来?! 这里看似抛出了一个问题 ? 但细想一下, 同时暴露了我们对于线上服务的监控未完全覆盖到!!! 这是致命的!!! 当然, 这篇文章先不讨论监控的问题, 后面会推出完善的监控方案定位问题问题抛过来了, 那么我们第一步要怎样做呢? 拿到问题的第一步, 先理解题意, 这里有几个关键的信息点第一 : 好几天, 具体哪一天, 这个后面
Go+Vue开发一个线上外卖应用的流程(用户名密码和图形验证码)

图形化验证码生成和验证功能介绍在使用用户名和密码登录功能时,需要填写验证码,验证码是以图形化的方式进行获取和展示的. 验证码使用原理验证码的使用流程和原理为:在服务器端负责生成图形化验证码,并以数据流的形式供前端访问获取,同时将生成的验证码存储到全局的缓存中,在本案例中,我们使用redis作为全局缓存,并设置缓存失效时间.当用户使用用户名和密码进行登录时,进行验证码验证.验证通过即可继续进行登录. 验证码库安装借助开源的验证码工具库可以生成验证码. 首先,安装开源的验证码生成库: go
Java中一个线程执行死循环有什么后果

假设有两个线程在并发运行,一个线程执行的代码中含有一个死循环如:while(true)....当该线程在执行while(true)中代码时,另一个线程会有机会执行吗? 示例代码(代码来源于互联网) public class Service { Object object1 = new Object(); public void methodA() { synchronized (object1) { System.out.println("methodA begin"); boolea
MySQL的慢日志线上问题及优化方案

MySQL 慢日志(slow log)是 MySQL DBA 及其他开发.运维人员需经常关注的一类信息.使用慢日志可找出执行时间较长或未走索引等 SQL 语句,为进行系统调优提供依据. 本文将结合一个线上案例,分析如何正确设置 MySQL 慢日志参数和使用慢日志功能,并介绍下网易云 RDS 对 MySQL 慢日志功能的增强. MySQL 参数组功能网易云 RDS 实例提供了参数组管理功能,可通过参数管理界面查看绝大部分常用的 MySQL 系统参数,用户可了解当前运行值和建议值: 用户还可通过参
JAVA线上常见问题排查手段(小结)

在平时开发过程中,对于线上问题的排查以及系统的优化,免不了和Linux进行打交道.每逢大促和双十一,对系统的各种压测性能测试,优化都是非常大的一次考验.抽空整理了一下自己在线上问题排查以及系统优化的一些经验. 一.系统性能瓶颈在哪我们常常提到项目的运行环境,那么运行环境包括哪些呢?一般包括你的操作系统.CPU.内存.硬盘.网络带宽.JRE环境.你的代码依赖的各种组件等等.所以系统性能的瓶颈往往是IO瓶颈.CPU瓶颈.内存瓶颈或者程序导致的性能瓶颈登录到服务器上,我们使用TOP命令可以很全面的
java开发线上问题排查命令详解

前言作为一个合格的开发人员,不仅要能写得一手还代码,还有一项很重要的技能就是排查问题.这里提到的排查问题不仅仅是在coding的过程中debug等,还包括的就是线上问题的排查.由于在生产环境中,一般没办法debug(其实有些问题,debug也白扯...),所以我们需要借助一些常用命令来查看运行时的具体情况,这些运行时信息包括但不限于运行日志.异常堆栈.堆使用情况.GC情况.JVM参数情况.线程情况等. 给一个系统定位问题的时候,知识.经验是关键,数据是依据,工具是运用知识处理数据的手段.为了便
JAVA线上常见问题排查手段汇总

在平时开发过程中,对于线上问题的排查以及系统的优化,免不了和Linux进行打交道.每逢大促和双十一,对系统的各种压测性能测试,优化都是非常大的一次考验.抽空整理了一下自己在线上问题排查以及系统优化的一些经验. 一.系统性能瓶颈在哪我们常常提到项目的运行环境,那么运行环境包括哪些呢?一般包括你的操作系统.CPU.内存.硬盘.网络带宽.JRE环境.你的代码依赖的各种组件等等.所以系统性能的瓶颈往往是IO瓶颈.CPU瓶颈.内存瓶颈或者程序导致的性能瓶颈登录到服务器上,我们使用TOP命令可以很全面的

java排查一个线上死循环cpu暴涨的过程分析

相关推荐

随机推荐