内存溢出+CPU占用过高:问题排查+解决方案+复盘(超详细分析教程)

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 全网最全的内存溢出CPU占用过高排查文章,包含:问题出现现象+临时解决方案+复现问题+定位问题发生原因+优化代码+优化后进行压测,上线+复盘

前言


最近刚上线了一款社交项目,运行十多天后(运营持续每天推量),发现问题:

  • 系统OOM(资源不能被释放)导致服务器频繁且长时间FGC导致服务器CPU持续飚高
  • 日志中内存溢出:**java.lang.OutOfMemoryError: Java heap space**
  • 程序十分卡顿,严重影响用户使用


从以下方面,为大家分享此次问题解决流程

  • 问题出现现象
  • 临时解决方案
  • 复现问题
  • 定位问题发生原因
  • 优化代码
  • 优化后进行压测,上线
  • 复盘

学完本博文,你的收获

  • 排查内存溢出的思路
  • 排查内存溢出过程中用到的命令及工具(Linux命令,[Eclipse Memory Anaylzer[MAT]](https://www.eclipse.org/mat/))
  • 定位系统内存溢出的代码,并进行优化
  • 此次内存溢出问题复盘

解决方案流程图

111.png

问题&临时解决方案&定位问题&最终解决方案


问题:


  • 业务反馈程序用的十分卡,同时测试自己测的也十分卡
  • 从ELK收集的请求日志发现确实存在问题,线上是两台部署:两台机器上都是,一次请求耗时由原来的几毫秒变为10几秒
  • CPU跑的过高,当时是4核,CPU持续飙到350%+;
  • 当时一台服务器CPU截图:

222.png

临时解决方案

  • 当时为了减少对业务影响,直接将生产两台服务器上的项目进行重启
  • 项目启动参数中没有加内存溢出日志输出(后续博客为大家介绍JVM调优时讲解启动命令中加内存溢出日志输出),重启后出问题时项目的JVM信息丢失了


复现问题方式:在开发环境对程序进行持续压测;压测相关服务器配置:

  • 服务器配置:8核,16G
  • 项目启动内存:136M
  • Jmeter持续(循环)压发消息接口10分钟


定位问题

  • top命令查看最耗CPU的进程(进程:17038;CPU持续飙到595%+)
# 输入top命令后键入P(大写P),进程按照CPU从高到底排序top

333.png


  • 查看该进程中最耗CPU的线程(发现有一些线程占用CPU较高)    
# 17038为进程号,键入P(大写P),该进程中的线程按照CPU从高到底排序top-Hp17038

555.png

 

  • 将线程号转为16进制,同时查看这些线程当前正在干什么(在此以17045线程为例)
# 将线程号转为16进制;其中17045为线程号printf '%x\n'17045# 17038为进程号,0x4295为最耗CPU线程的十六进制jstack 17038 | grep'0x4295'-C10--color

xxx.png

  • 可以看到**最耗CPU的线程都是在进行GC**
  • 用Jmap命令查看当前堆的使用情况(发现老年代现在已占用99.8%+)  
# 其中17038为进程号jmap -heap17038

yyy.png

  • 查看gc频率的命令(其中O代表老年代占用率,FGC是FullGC次数,FGCT是fullGC时间;可以看出在频繁FullGC但是老年代有资源一直释放不掉)
# 其中17038为进程号,5000是指每5秒(5000毫秒)输出一次jstat -gcutil170385000

av.png

  • 通过分析出问题时线上日志发现内存溢出;至此定位到问题根源是内存溢出导致(有未释放资源堆积,导致老年代被占满,然后频繁的FullGC但是资源一直释放不了)  
grep-m10'OutOfMemoryError' *.log

123.png

分析问题产生原因

  • 由于线上当时直接重启,未能保留当时的JVM内存文件;在开发环境进行循环压测,复现线上问题,然后导出dump文件进行分析找到原因
  • 生成dump文件命令
# 其中fileName是导出后dump名称,pid为进程号jmap -dump:format=b,file=fileName.dump pid
  • 将dump文件导出到本地,用Eclipse Memary Analysis(MAT官网) 进行分析

 

  • MAT导入dump文件
  • q.png

 w.png

  • 按对象排序视图进行查看(总览中看到对象总个数:14.1百万个)

e.png

 

  • 发现有两个类(ClassClassPath,ClassClassPathList)占用比较大,这两个类约占对象总数的**83%**(计算方式:5873361*2/14100000=83%)    

r.png

分析代码      

  • 去代码中全局搜这两个类,发现只有在打日志的时候用到ClassClassPath类

o.png

  • 分析ClassClassPath相关代码:
  • 用到ClassClassPath对象是一个静态的ClassPool;
  • 问题原因:classPath一直被静态的全局pool所持有,导致GC一直释放不掉;

s1.png

s2.png

  s3.png

s4.png

  • 当然顺着代码,顺藤摸瓜也找到了ClassPathList

s5.png

s6.png优化代码:每次用完ClassClassPath后将其释放

  • 每次对象使用完后从静态pool中移除
  • 注意:classPath=null这种方式是不能释放掉的

xc.png

优化后再次进行验证


  • 开发环境循环压测,用MAT分析dump文件,发现内存中已不再堆积ClassClassPath类;优化前后接口吞吐量也提升8.2%
  • 进行线上发布,观察一周后,对内存分析发现正常

复盘:


  • 项目比对:
  • 为快速开发,社交的代码从原来金融项目基础上改造而来;
  • 原来金融项目没有内存溢出,而社交项目为什么内存溢出?
  • 通过ELK统计一段时间的访问量结果:
  • 社交目前日访问后台量65w+
  • 金融项目只有4.5W+
  • 社交和金融项目业务类型不一样,所呈现出的特点也不同
  • 去生产的金融项目中dump内存文件,用MAT工具分析,发现也存在ClassClassPath类堆积释放不掉,只不过由于访问量少,堆积量未占满老年代而已;果断在金融项目迭代时将其优化;
  • 程序预警:为减少业务影响,增加接口耗时的预警(后续博文为大家共享);实现方式:
  • 在每次程序处理完进行预警(比如本次请求>阈值);缺点:消耗性能影响正常业务
  • 在ELK清洗时用相关插件进行预警;优点:和业务解耦,对业务无影响
  • 服务器预警:运维增加CPU内存,日志内存溢出监控



总结


解决内存溢出过程总结:


  • 不同的项目导致内存溢出原因是不同的;
  •    重要的是排查思路
  •    经过不断的耐心的去观察,测试,分析才能定位到问题并最终解决问题


  • 在这次分析内存溢出过程中,我们也针对我们项目的JVM启动参数进行了调优,在接下来的博文中为大家分享JVM调优
相关实践学习
一小时快速掌握 SQL 语法
本实验带您学习SQL的基础语法,快速入门SQL。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
13天前
|
Linux
Linux rsyslog占用内存CPU过高解决办法
该文档描述了`rsyslog`占用内存过高的问题及其解决方案。
39 4
|
18天前
|
机器学习/深度学习 缓存 监控
linux查看CPU、内存、网络、磁盘IO命令
`Linux`系统中,使用`top`命令查看CPU状态,要查看CPU详细信息,可利用`cat /proc/cpuinfo`相关命令。`free`命令用于查看内存使用情况。网络相关命令包括`ifconfig`(查看网卡状态)、`ifdown/ifup`(禁用/启用网卡)、`netstat`(列出网络连接,如`-tuln`组合)以及`nslookup`、`ping`、`telnet`、`traceroute`等。磁盘IO方面,`iostat`(如`-k -p ALL`)显示磁盘IO统计,`iotop`(如`-o -d 1`)则用于查看磁盘IO瓶颈。
|
8天前
|
存储 弹性计算 固态存储
阿里云服务器CPU内存配置详细指南,如何选择合适云服务器配置?
阿里云服务器配置选择涉及CPU、内存、公网带宽和磁盘。个人开发者或中小企业推荐使用轻量应用服务器或ECS经济型e实例,如2核2G3M配置,适合低流量网站。企业用户则应选择企业级独享型ECS,如通用算力型u1、计算型c7或通用型g7,至少2核4G配置,公网带宽建议5M,系统盘可选SSD或ESSD云盘。选择时考虑实际应用需求和性能稳定性。
109 6
|
1天前
|
存储 Arthas 监控
JVM工作原理与实战(三十):堆内存状况的对比分析
JVM作为Java程序的运行环境,其负责解释和执行字节码,管理内存,确保安全,支持多线程和提供性能监控工具,以及确保程序的跨平台运行。本文主要介绍了堆内存状况的对比分析、产生内存溢出的原因等内容。
|
2天前
|
Java
Handler内存泄漏原因及解决方案
Handler内存泄漏原因及解决方案
8 0
|
2天前
|
监控 数据可视化 数据挖掘
R语言质量控制图、质量管理研究分析采购订单数量、CPU时间、纸厂产出、钢板数据可视化
R语言质量控制图、质量管理研究分析采购订单数量、CPU时间、纸厂产出、钢板数据可视化
|
4天前
|
缓存 Linux
linux性能分析之内存分析(free,vmstat,top,ps,pmap等工具使用介绍)
这些工具可以帮助你监视系统的内存使用情况、识别内存泄漏、找到高内存消耗的进程等。根据具体的问题和需求,你可以选择使用其中一个或多个工具来进行内存性能分析。注意,内存分析通常需要综合考虑多个指标和工具的输出,以便更好地理解系统的行为并采取相应的优化措施。
24 6
|
7天前
|
机器学习/深度学习 分布式计算 数据处理
Spark是一个基于内存的通用数据处理引擎,可以进行大规模数据处理和分析
【5月更文挑战第2天】Spark是一个基于内存的通用数据处理引擎,可以进行大规模数据处理和分析
22 3
|
9天前
|
监控 算法 测试技术
【Go语言专栏】Go语言的性能优化与内存分析
【4月更文挑战第30天】本文探讨了Go语言的性能优化策略和内存分析方法。性能优化原则包括基准测试、分析瓶颈、避免过早优化和持续监控。优化策略涉及减少内存分配、避免内存逃逸、利用并发、优化算法和数据结构以及减少系统调用。内存分析借助于Go的`pprof`工具、内存分配跟踪和第三方工具,以发现内存泄漏和管理问题。通过这些方法,开发者能提升Go程序效率和资源利用率。
|
11天前
|
缓存 Java Android开发
安卓开发中的内存泄漏分析与优化策略
【4月更文挑战第27天】 在移动应用开发领域,性能优化始终是提升用户体验的关键因素之一。特别是对于安卓平台,由于设备的硬件配置差异较大,良好的内存管理对于保证应用流畅运行尤为重要。本文将深入探讨安卓开发中常见的内存泄漏问题,并提供一系列检测和解决内存泄漏的实用策略。通过对工具的使用、代码实践以及系统架构设计的多维度分析,旨在帮助开发者有效避免和处理内存泄漏,确保应用性能稳定。
http://www.vxiaotou.com