记一次GP集群服务器100多个僵尸进程的故障分析
liebian365 2024-10-17 14:04 20 浏览 0 评论
导读
今天分享一个故障分析的案例。
一次寻常的GP集群服务器测试,却引发了100多个僵尸进程!
别慌,掌数工程师带你追根溯源,深度解读整个故障分析全过程。
01
悲剧出现,发生了什么?
2020年7月中旬某日晚间:
某大型银行核心审计系统GP数据库集群(以下称:某集群)的所有服务器(含新扩容的服务器)均告警提示发现100多个僵尸进程!
而此时,正处于某集群停机做数据字典检查的期间。
僵尸进程的出现,是在数据库停止后,进行IO和网络性能测试操作之时。
发现僵尸进程告警之后,登录所有服务器检查,所有僵尸进程消失。
02
剧情重现!问题是如何产生的?
由于发现僵尸进程告警时,正在对某集群的所有服务器(含需要扩容的12台新服务器)进行IO和网络的性能测试。
因此,原因分析过程就从IO和网络性能测试开始分析。
IO和网络性能测试是使用gpcheckperf工具。
在2020年7月下旬晚上某集群正式扩容前抽出时间进行gpcheckperf测试验证,并且实时监控僵尸进程的情况。
开始测试前,首先设置设备维护期。
使用gpcheckperf进行IO读写性能测试,并没有监控到僵尸进程,测试命令:gpcheckperf -f all_segs -r ds -D -d /data1 -d /data2
使用gpcheckperf进行矩阵式网络性能测试,监控到僵尸进程,并且僵尸进程数量与7月20日当晚告警内容相符。
测试命令:gpcheckperf -f all_hosts -r M--duartion=3m -d /tmp
矩阵式网络性能测试约持续3分钟,当各台服务器的启动top监控zombie数量时发现:从测试中间开始,各台服务器逐渐开始出现僵尸进程,segment服务器僵尸进程最高时达到144,master服务器僵尸进程最高时超过1000。gpcheckperf测试完成后所有僵尸进程消失。
ps 命令监控<defunct>进程的情况,segment服务器上的僵尸进程名为gpnetbenchServe:3177632026 [gpnetbenchServe] <defunct> 19:08:23 00:00:00;master服务器上除了gpnetbenchServe以外,还有大量的ssh僵尸进程:6733 6526 [ssh] <defunct>19:07:05 00:00:00
综上,可以确定僵尸进程是由于gpcheckperf工具做矩阵式网络测试时产生,网络测试完成后消失。
03
追根溯源,根本原因究竟是什么?
1. 矩阵式网络测试的原理
所测试的每一台服务器都作为TCPServer,每一台服务器同时作为Client,向所有其他服务器发包。最终形成一个收发测试网络,从而达到整个网络高压测试的目的。随着所测试的服务器越多,其网络测试压力越大,所产生的网络连接越多。
本次测试的服务器规模很大,同时测试12台,是较多僵尸进程的原因之一。
如果小规模的测试,僵尸进程的数量不一定能达到告警的规模。
2. gpcheckperf工具的原理
测试发起方也就是master服务器(执行命令的服务器),其首先需要通过ssh向各个服务器发起启动网络测试的Server和Client。
由于本次测试涉及12台服务器的矩阵式测试,master会发起12*12=144个ssh命令。
启动矩阵式的网络测试之后,每台服务器上都应该有12个client进程,以及1个Server进程。
矩阵式网络发包会持续3分钟。而各对C/S的发包进程启动和结束时间是不同的。因此有些进程会较早结束,有些进程会较晚结束。而由于gpcheckperf对于较早结束的子进程并没有进行及时回收,就会出现子进程自己结束和主进程退出之前处于defunct状态。
master服务器上之所以僵尸进程会更多,是因为master是命令发起者,需要通过ssh进程去启动各个服务器的子进程。其某个子进程的网络发包测试结束后,ssh的操作进程本身也会短时间处于defunct状态。
04
值得借鉴!总结2条靠谱的实施经验
gpcheckperf做服务器的硬件性能测试,是常规的测试工具。在新系统部署,新设备安装部署期间都会经常使用该工具进行测试。
1. 对于已投产的设备,如果对其硬件状况产生怀疑的情况下,也需要用该工具进行测试验证。
2. 对于已投产纳管的服务器,以后在需要做gpcheckperf测试之前,建议都先把系统置为维护期。必须在维护期中方可进行测试。
相关推荐
- “版本末期”了?下周平衡补丁!国服最强5套牌!上分首选
-
明天,酒馆战棋就将迎来大更新,也聊了很多天战棋相关的内容了,趁此机会,给兄弟们穿插一篇构筑模式的卡组推荐!老规矩,我们先来看10职业胜率。目前10职业胜率排名与一周前基本类似,没有太多的变化。平衡补丁...
- VS2017 C++ 程序报错“error C2065:“M_PI”: 未声明的标识符"
-
首先,程序中头文件的选择,要选择头文件,在文件中是没有对M_PI的定义的。选择:项目——>”XXX属性"——>配置属性——>C/C++——>预处理器——>预处理器定义,...
- 东营交警实名曝光一批酒驾人员名单 88人受处罚
-
齐鲁网·闪电新闻5月24日讯酒后驾驶是对自己和他人生命安全极不负责的行为,为守护大家的平安出行路,东营交警一直将酒驾作为重点打击对象。5月23日,东营交警公布最新一批饮酒、醉酒名单。对以下驾驶人醉酒...
- Qt界面——搭配QCustomPlot(qt platform)
-
这是我第一个使用QCustomPlot控件的上位机,通过串口精确的5ms发送一次数据,再将读取的数据绘制到图表中。界面方面,尝试卡片式设计,外加QSS简单的配了个色。QCustomPlot官网:Qt...
- 大话西游2分享赢取种族坐骑手办!PK趣闻录由你书写
-
老友相聚,仗剑江湖!《大话西游2》2021全民PK季4月激燃打响,各PK玩法鏖战齐开,零门槛参与热情高涨。PK季期间,不仅各种玩法奖励丰厚,参与PK趣闻录活动,投稿自己在PK季遇到的趣事,还有机会带走...
- 测试谷歌VS Code AI 编程插件 Gemini Code Assist
-
用ClaudeSonnet3.7的天气测试编码,让谷歌VSCodeAI编程插件GeminiCodeAssist自动编程。生成的文件在浏览器中的效果如下:(附源代码)VSCode...
- 顾爷想知道第4.5期 国服便利性到底需优化啥?
-
前段时间DNF国服推出了名为“阿拉德B计划”的系列改版计划,截至目前我们已经看到了两项实装。不过关于便利性上,国服似乎还有很多路要走。自从顾爷回归DNF以来,几乎每天都在跟我抱怨关于DNF里面各种各样...
- 掌握Visual Studio项目配置【基础篇】
-
1.前言VisualStudio是Windows上最常用的C++集成开发环境之一,简称VS。VS功能十分强大,对应的,其配置系统较为复杂。不管是对于初学者还是有一定开发经验的开发者来说,捋清楚VS...
- 还嫌LED驱动设计套路深?那就来看看这篇文章吧
-
随着LED在各个领域的不同应用需求,LED驱动电路也在不断进步和发展。本文从LED的特性入手,推导出适合LED的电源驱动类型,再进一步介绍各类LED驱动设计。设计必读:LED四个关键特性特性一:非线...
- Visual Studio Community 2022(VS2022)安装图文方法
-
直接上步骤:1,首先可以下载安装一个VisualStudio安装器,叫做VisualStudioinstaller。这个安装文件很小,很快就安装完成了。2,打开VisualStudioins...
- Qt添加MSVC构建套件的方法(qt添加c++11)
-
前言有些时候,在Windows下因为某些需求需要使用MSVC编译器对程序进行编译,假设我们安装Qt的时候又只是安装了MingW构建套件,那么此时我们该如何给现有的Qt添加一个MSVC构建套件呢?本文以...
- Qt为什么站稳c++GUI的top1(qt c)
-
为什么现在QT越来越成为c++界面编程的第一选择,从事QT编程多年,在这之前做C++界面都是基于MFC。当时为什么会从MFC转到QT?主要原因是MFC开发界面想做得好看一些十分困难,引用第三方基于MF...
- qt开发IDE应该选择VS还是qt creator
-
如果一个公司选择了qt来开发自己的产品,在面临IDE的选择时会出现vs或者qtcreator,选择qt的IDE需要结合产品需求、部署平台、项目定位、程序猿本身和公司战略,因为大的软件产品需要明确IDE...
- Qt 5.14.2超详细安装教程,不会来打我
-
Qt简介Qt(官方发音[kju:t],音同cute)是一个跨平台的C++开库,主要用来开发图形用户界面(GraphicalUserInterface,GUI)程序。Qt是纯C++开...
- Cygwin配置与使用(四)——VI字体和颜色的配置
-
简介:VI的操作模式,基本上VI可以分为三种状态,分别是命令模式(commandmode)、插入模式(Insertmode)和底行模式(lastlinemode),各模式的功能区分如下:1)...
你 发表评论:
欢迎- 一周热门
- 最近发表
-
- “版本末期”了?下周平衡补丁!国服最强5套牌!上分首选
- VS2017 C++ 程序报错“error C2065:“M_PI”: 未声明的标识符"
- 东营交警实名曝光一批酒驾人员名单 88人受处罚
- Qt界面——搭配QCustomPlot(qt platform)
- 大话西游2分享赢取种族坐骑手办!PK趣闻录由你书写
- 测试谷歌VS Code AI 编程插件 Gemini Code Assist
- 顾爷想知道第4.5期 国服便利性到底需优化啥?
- 掌握Visual Studio项目配置【基础篇】
- 还嫌LED驱动设计套路深?那就来看看这篇文章吧
- Visual Studio Community 2022(VS2022)安装图文方法
- 标签列表
-
- wireshark怎么抓包 (75)
- qt sleep (64)
- cs1.6指令代码大全 (55)
- factory-method (60)
- sqlite3_bind_blob (52)
- hibernate update (63)
- c++ base64 (70)
- nc 命令 (52)
- wm_close (51)
- epollin (51)
- sqlca.sqlcode (57)
- lua ipairs (60)
- tv_usec (64)
- 命令行进入文件夹 (53)
- postgresql array (57)
- statfs函数 (57)
- .project文件 (54)
- lua require (56)
- for_each (67)
- c#工厂模式 (57)
- wxsqlite3 (66)
- dmesg -c (58)
- fopen参数 (53)
- tar -zxvf -c (55)
- 速递查询 (52)