百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分析 > 正文

定制化JDK升级引发的离奇事件

liebian365 2024-11-20 18:22 22 浏览 0 评论

1、背景

由于Oracle对外宣称Oracle JDK停止免费用于商用。公司法务部门评估之后担心后续会惹上光司,于是就开始了JDK升级-将所有服务Oracle修改为OpenJDK。上周开始微服务JDK升级原本只不过是一个基础组件的升级,由于没有涉及业务代码的变更觉得问题不大。但怎么也想不到开始升级之后便陆陆续续出现服务不断重启的异常想象。这到底是咋了?

2、问题暴露

升级镜像之后,java服务频繁重启,服务对外的接口处于半不可用状态,具体表现为接口请求失败率5-10%(该接口对应数据看板主要是内部人员使用,之所以没有第一时间进行止损)

3、异常排查

本次升级除了更新基础JDK镜像,既没有业务代码的变更也没有修改配置,到底是什么原因导致的呢?

带着十分困惑的心情,我和团队开启了漫长的异常排查之旅。

1) 当时出现服务重启,第一感觉是启动耗时长导致探测接口超时超过一定阈值导致重启。

于是在发生异常重启的第1个小时内,我把探测超时由30s调大为60s,发现没有效果,于是又调大到90s, 可惜还是不奏效,服务还是出现一直重启的想象。

2) 接下来是怀疑pod所在的宿主机会不会是内存不足导致的呢?于是登陆宿主机查看内存

$ free -m

总内存128g, 可用内存有60g以上,宿主机的物理内存是足够的。

3)主机内存也是正常的,不知道JVM的监控是否有明显的异常提示呢?

到这个时候,距离升级已经过去2小时了。于是打开业务jvm的heap和gc次数监控看板,发现full gc还是比较规律的,没有明细的异常信息。

此时距离升级已经过去将近3小时了。实在找不到任何头绪了,难道只能回滚了吗?

4)最后的最后,我们想到检查系统级别日志看看是否有异常提示,结果终于发现OOM的错误日志。

dmesg -T

结论:

到这里问题已经比较明显了,pod内部的Java服务异常申请内存超过内存上限(该pod配置的的内存limit值是4g)触发了系统的killer保护进程将pod进程kill掉。

4、根因定位

虽然定位到是OOM原因导致的,但是为什么升级了JDK就导致OOM呢?

经过jinfo命令查看JVM启动参数终于发现根本原因。原来服务反复OOM被kill掉是因为“-XX:MaxHeapSize”参数失效导致Java进程使用默认值32g(物理机的1/4)超出了pod分配的limit上限8g。那为什么“-XX:MaxHeapSize”参数失效呢?那是因为新镜像给JAVA_OPS进行默认赋值,覆盖了之前启动参数JAVA_OPS的值。想要解决这个问题,需要取消OpenJDK镜像对于JAVA_OPS的默认赋值。

jinfo -flags 1

再次确认MaxHeapSize的默认值,通过执行以下命令可以看到MaxHeapSize默认值确实是系统总内存的

1/4。

java -XX:+PrintFlagsFinal -version | grep MaxHeapSize

5、总结复盘

结合本次发布引起的异常做一次复盘,主要包含问题发生和修复完成的时间点以及故障原因分析与优化措施。见如下表格:

相关推荐

go语言也可以做gui,go-fltk让你做出c++级别的桌面应用

大家都知道go语言生态并没有什么好的gui开发框架,“能用”的一个手就能数的清,好用的就更是少之又少。今天为大家推荐一个go的gui库go-fltk。它是通过cgo调用了c++的fltk库,性能非常高...

旧电脑的首选系统:TinyCore!体积小+精简+速度极快,你敢安装吗

这几天老毛桃整理了几个微型Linux发行版,准备分享给大家。要知道可供我们日常使用的Linux发行版有很多,但其中的一些发行版经常会被大家忽视。其实这些微型Linux发行版是一种非常强大的创新:在一台...

codeblocks和VS2019下的fltk使用中文

在fltk中用中文有点问题。英文是这样。中文就成这个样子了。我查了查资料,说用UTF-8编码就行了。edit->Fileencoding->UTF-8然后保存文件。看下下边的编码指示确...

FLTK(Fast Light Toolkit)一个轻量级的跨平台Python GUI库

FLTK(FastLightToolkit)是一个轻量级的跨平台GUI库,特别适用于开发需要快速、高效且简单界面的应用程序。本文将介绍Python中的FLTK库,包括其特性、应用场景以及如何通过代...

中科院开源 RISC-V 处理器“香山”流片,已成功运行 Linux

IT之家1月29日消息,去年6月份,中科院大学教授、中科院计算所研究员包云岗,发布了开源高性能RISC-V处理器核心——香山。近日,包云岗在社交平台晒出图片,香山芯片已流片,回片后...

Linux 5.13内核有望合并对苹果M1处理器支持的初步代码

预计Linux5.13将初步支持苹果SiliconM1处理器,不过完整的支持工作可能还需要几年时间才能完全完成。虽然Linux已经可以在苹果SiliconM1上运行,但这需要通过一系列的补丁才能...

Ubuntu系统下COM口测试教程(ubuntu port)

1、在待测试的板上下载minicom,下载minicom有两种方法:方法一:在Ubuntu软件中心里面搜索下载方法二:按“Ctrl+Alt+T”打开终端,打开终端后输入“sudosu”回车;在下...

湖北嵌入式软件工程师培训怎么选,让自己脱颖而出

很多年轻人毕业即失业、面试总是不如意、薪酬不满意、在家躺平。“就业难”该如何应对,参加培训是否能改变自己的职业走向,在湖北,有哪些嵌入式软件工程师培训怎么选值得推荐?粤嵌科技在嵌入式培训领域有十几年经...

新阁上位机开发---10年工程师的Modbus总结

前言我算了一下,今年是我跟Modbus相识的第10年,从最开始的简单应用到协议了解,从协议开发到协议讲解,这个陪伴了10年的协议,它一直没变,变的只是我对它的理解和认识。我一直认为Modbus协议的存...

创建你的第一个可运行的嵌入式Linux系统-5

@ZHangZMo在MicrochipBuildroot中配置QT5选择Graphic配置文件增加QT5的配置修改根文件系统支持QT5修改output/target/etc/profile配置文件...

如何在Linux下给zigbee CC2530实现上位机

0、前言网友提问如下:粉丝提问项目框架汇总下这个网友的问题,其实就是实现一个网关程序,内容分为几块:下位机,通过串口与上位机相连;下位机要能够接收上位机下发的命令,并解析这些命令;下位机能够根据这些命...

Python实现串口助手 - 03串口功能实现

 串口调试助手是最核心的当然是串口数据收发与显示的功能,pzh-py-com借助的是pySerial库实现串口收发功能,今天痞子衡为大家介绍pySerial是如何在pzh-py-com发挥功能的。一、...

为什么选择UART(串口)作为调试接口,而不是I2C、SPI等其他接口

UART(通用异步收发传输器)通常被选作调试接口有以下几个原因:简单性:协议简单:UART的协议非常简单,只需设置波特率、数据位、停止位和校验位就可以进行通信。相比之下,I2C和SPI需要处理更多的通...

同一个类,不同代码,Qt 串口类QSerialPort 与各种外设通讯处理

串口通讯在各种外设通讯中是常见接口,因为各种嵌入式CPU中串口标配,工业控制中如果不够还通过各种串口芯片进行扩展。比如spi接口的W25Q128FV.对于软件而言,因为驱动接口固定,软件也相对好写,因...

嵌入式linux为什么可以通过PC上的串口去执行命令?

1、uboot(负责初始化基本硬bai件,如串口,网卡,usb口等,然du后引导系统zhi运行)2、linux系统(真正的操作系统)3、你的应用程序(基于操作系统的软件应用)当你开发板上电时,u...

取消回复欢迎 发表评论: