「linux」epoll和shutdown使用不当可能导致死循环
liebian365 2024-10-27 13:12 26 浏览 0 评论
linux服务器开发相关视频解析:
epoll的网络模型,从redis,memcached到nginx,一起搞定
首先来看段代码:
#include <arpa/inet.h>
#include <assert.h>
#include <errno.h>
#include <stdio.h>
#include <stdlib.h>
#include <strings.h>
#include <sys/epoll.h>
#include <sys/socket.h>
#include <sys/types.h>
#include <unistd.h>
#define PORT 9999
#define MAX_EVENTS 10
static int tcp_listen() {
int lfd, opt, err;
struct sockaddr_in addr;
lfd = socket(AF_INET, SOCK_STREAM, IPPROTO_TCP);
assert(lfd != -1);
opt = 1;
err = setsockopt(lfd, SOL_SOCKET, SO_REUSEADDR, &opt, sizeof(opt));
assert(!err);
bzero(&addr, sizeof(addr));
addr.sin_family = AF_INET;
addr.sin_addr.s_addr = INADDR_ANY;
addr.sin_port = htons(PORT);
err = bind(lfd, (struct sockaddr *)&addr, sizeof(addr));
assert(!err);
err = listen(lfd, 8);
assert(!err);
return lfd;
}
static void epoll_ctl_add(int epfd, int fd, int evts) {
struct epoll_event ev;
ev.events = evts;
ev.data.fd = fd;
int err = epoll_ctl(epfd, EPOLL_CTL_ADD, fd, &ev);
assert(!err);
}
static void handle_events(struct epoll_event *e, int epfd) {
int err;
printf("events: %d -> %d\n", e->data.fd, e->events);
err = shutdown(e->data.fd, SHUT_WR);
// err = close(e->data.fd);
if (err) {
printf("shutdown errno: %d\n", errno);
exit(123);
}
}
int main(int argc, char *argv[]) {
int epfd, lfd, cfd, n;
struct epoll_event events[MAX_EVENTS];
epfd = epoll_create1(0);
assert(epfd != -1);
lfd = tcp_listen();
epoll_ctl_add(epfd, lfd, EPOLLIN);
for (;;) {
n = epoll_wait(epfd, events, MAX_EVENTS, -1);
assert(n != -1);
for (int i = 0; i < n; i++) {
if (events[i].data.fd == lfd) {
cfd = accept(lfd, NULL, NULL);
assert(cfd != -1);
epoll_ctl_add(epfd, cfd, EPOLLIN | EPOLLOUT | EPOLLET);
} else {
handle_events(&events[i], epfd);
}
}
}
return 0;
}
代码虽然有点长,但非常简单,就是tcp和epoll的基本操作,这里需要注意的是,在handle_events方法里,在输出了socket的event相关内容后,立即调用了shutdown方法,关闭该socket的send端。
看上去好像没什么问题,我们来执行试下。
下面是服务端的完整输出:
$ gcc server.c && ./a.out
events: 5 -> 4
events: 5 -> 4
events: 5 -> 4
events: 5 -> 4
... 省略大量的events输出 ...
shutdown errno: 107
$ echo $?
123
下面是用ncat模拟的客户端的完整操作流程:
nbsp;ncat localhost 9999
^C
当服务端开始执行我们上面的程序时,终端是没有任何输出的,它在等待客户端连接。
当我们用ncat命令对服务端发起连接时,服务器终端会一直输出events,陷入死循环。
当我们ctrl-c关闭ncat模拟的客户端时,服务端停止输出events,之后,在输出完shutdown errno后,调用exit退出程序。
最后,我们用echo命令输出服务端程序的exit code,发现确实是代码里指定的123。
由上可见,服务端代码在执行完shutdown后,陷入了死循环。
但为什么呢?我们还是通过linux内核源码来看下:
// net/ipv4/af_inet.c
int inet_shutdown(struct socket *sock, int how)
{
struct sock *sk = sock->sk;
...
switch (sk->sk_state) {
case TCP_CLOSE:
err = -ENOTCONN;
default:
sk->sk_shutdown |= how;
if (sk->sk_prot->shutdown)
sk->sk_prot->shutdown(sk, how);
break;
...
}
sk->sk_state_change(sk);
...
return err;
}
EXPORT_SYMBOL(inet_shutdown);
系统调用shutdown最终会调用该方法,由上可见,该方法先设置了sk->sk_shutdown,然后又调用了sk->sk_prot->shutdown指向的方法,该方法内容如下:
// net/ipv4/tcp.c
void tcp_shutdown(struct sock *sk, int how)
{
if (!(how & SEND_SHUTDOWN))
return;
/* If we've already sent a FIN, or it's a closed state, skip this. */
if ((1 << sk->sk_state) &
(TCPF_ESTABLISHED | TCPF_SYN_SENT |
TCPF_SYN_RECV | TCPF_CLOSE_WAIT)) {
/* Clear out any half completed packets. FIN if needed. */
if (tcp_close_state(sk))
tcp_send_fin(sk);
}
}
EXPORT_SYMBOL(tcp_shutdown);
该方法的作用其实就是设置socket的状态和发送fin消息给对方。
【文章福利】需要C/C++ Linux服务器架构师学习资料加群812855908(资料包括C/C++,Linux,golang技术,Nginx,ZeroMQ,MySQL,Redis,fastdfs,MongoDB,ZK,流媒体,CDN,P2P,K8S,Docker,TCP/IP,协程,DPDK,ffmpeg等)
我们再继续看上面的inet_shutdown方法。
在调用完sk->sk_prot->shutdown之后,inet_shutdown方法又调用了sk->sk_state_change,而该方法的作用就是通知epoll,告诉它该socket又有事件发生。
当我们执行完shutdown系统调用后,epoll进入下一次循环,发现该socket又有事件发生了(就是上面sk->sk_state_change方法导致的事件),则继续执行我们代码中的handle_events方法,而该方法中又执行了shutdown系统调用,该系统调用又执行sk->sk_state_change方法,告知epoll该socket有事件发生,就这样,我们的代码就陷入了死循环。
为什么我们用ctrl-c关闭ncat客户端,服务端的程序能从死循环中退出呢?
我们知道,当关闭ncat客户端时,其socket会对应发送fin包给服务端,我们看下该fin包的处理流程:
// net/ipv4/tcp_input.c
void tcp_fin(struct sock *sk)
{
...
sk->sk_shutdown |= RCV_SHUTDOWN;
sock_set_flag(sk, SOCK_DONE);
switch (sk->sk_state) {
...
case TCP_FIN_WAIT2:
/* Received a FIN -- send ACK and enter TIME_WAIT. */
tcp_send_ack(sk);
tcp_time_wait(sk, TCP_TIME_WAIT, 0);
break;
...
}
...
}
因为服务端之前调用过shutdown,所以,执行这个方法时,服务端socket的状态为TCP_FIN_WAIT2。
该方法在调用tcp_send_ack,发送最后一个ack给客户端之后,又调用了tcp_time_wait,使服务端socket进入到TIME_WAIT状态。
// net/ipv4/tcp_minisocks.c
void tcp_time_wait(struct sock *sk, int state, int timeo)
{
...
struct inet_timewait_sock *tw;
...
// tw对应的伪socket的状态会被标识为TIME_WAIT
tw = inet_twsk_alloc(sk, tcp_death_row, state);
if (tw) {
...
// 拷贝sk中的各种必要数据到tw
...
// 发起TIME_WAIT计时,计时结束后,从内核移除tw对应的伪socket
inet_twsk_schedule(tw, timeo);
// 将tw对应的伪socket加入到内核中,占用对应的地址,不让后续的bind/connect操作使用
inet_twsk_hashdance(tw, sk, &tcp_hashinfo);
...
} else {
...
}
...
tcp_done(sk);
}
EXPORT_SYMBOL(tcp_time_wait);
由该方法可见,进入TIME_WAIT的socket并不是我们的socket,而是类型为struct inet_timewait_sock的伪socket,这样做的目的应该是为了减少内存消耗。
该方法又调用了tcp_done:
// net/ipv4/tcp.c
void tcp_done(struct sock *sk)
{
...
tcp_set_state(sk, TCP_CLOSE);
...
sk->sk_shutdown = SHUTDOWN_MASK;
if (!sock_flag(sk, SOCK_DEAD))
sk->sk_state_change(sk);
else
...
}
EXPORT_SYMBOL_GPL(tcp_done);
由该方法可见,我们socket的状态最终被设置为了TCP_CLOSE。
再回到上面的inet_shutdown方法,我们可以看到,当socket状态为TCP_CLOSE时,err的错误码会被赋值为ENOTCONN并返回给用户。
ENOTCONN对应的值和描述为:
// include/uapi/asm-generic/errno.h
#define ENOTCONN 107 /* Transport endpoint is not connected */
由上可见看到,该值正好就是我们程序最后输出的值,这也就解释了,为什么我们ctrl-c关闭ncat客户端后,服务端会跳出死循环,并输出shutdown errno为107。
再梳理下整个流程:
1. 当tcp连接建立后,服务端对应的socket满足EPOLLOUT事件,所以epoll会调用我们程序中的handle_events方法。
2. 在handle_events方法中,我们调用了shutdown系统调用。
3. shutdown系统调用内部又调用了sk->sk_state_change方法,告知epoll该socket又有对应对应的事件发生了。
4. 在handle_events方法结束之后,epoll进入下一次循环,检测到该socket又有事件发生,则继续调用handle_events方法。
5. handle_events方法里又调用了shutdown,shutdown方法里又通知epoll该socket有事件发生,就这样,服务端程序进入死循环。
6. 当我们用ctrl-c关闭ncat客户端时,其会发送一个fin包给服务端的socket。
7. 服务端的socket在收到fin包后,新创建一个类型为struct inet_timewait_sock的伪socket,该socket是用来占用原socket的地址,使后续的connect/bind操作无法使用该地址,并在各种工具的输出中显示该socket状态为TIME_WAIT。
8. 之后,原socket的状态会被设置为TCP_CLOSE。
9. 在我们的死循环流程再一次进入到inet_shutdown方法时,由于检测到该socket的状态为TCP_CLOSE,所以会设置该次操作的错误码为ENOTCONN,并返回给用户。
10. 由于该次shutdown操作有错误码返回,我们的程序会输出该错误码,并调用exit使该进程退出。
至此,整个流程就结束了。
由上可见,在epoll的socket处理逻辑部分,如果使用了shutdown方法,就会造成死循环。
那有什么方法可以避免这种死循环吗?
如果我们只是想单纯的关闭socket,其实用close方法就好了,这个是没有问题的,感兴趣的朋友可以将上面代码中的shutdown注释掉,用下面的close方法,运行后你会发现,不会有死循环发生。
原因是什么呢?
// fs/file_table.c
static void __fput(struct file *file)
{
...
eventpoll_release(file);
...
}
由上方法可见,在close系统调用执行的过程中,会调用eventpoll_release方法,自动将该socket从epoll注册中移除,所以也就不会出现上面的死循环了。
阅读源码的能力太重要了,源码可以解决一切问题!
相关推荐
- go语言也可以做gui,go-fltk让你做出c++级别的桌面应用
-
大家都知道go语言生态并没有什么好的gui开发框架,“能用”的一个手就能数的清,好用的就更是少之又少。今天为大家推荐一个go的gui库go-fltk。它是通过cgo调用了c++的fltk库,性能非常高...
- 旧电脑的首选系统:TinyCore!体积小+精简+速度极快,你敢安装吗
-
这几天老毛桃整理了几个微型Linux发行版,准备分享给大家。要知道可供我们日常使用的Linux发行版有很多,但其中的一些发行版经常会被大家忽视。其实这些微型Linux发行版是一种非常强大的创新:在一台...
- codeblocks和VS2019下的fltk使用中文
-
在fltk中用中文有点问题。英文是这样。中文就成这个样子了。我查了查资料,说用UTF-8编码就行了。edit->Fileencoding->UTF-8然后保存文件。看下下边的编码指示确...
- FLTK(Fast Light Toolkit)一个轻量级的跨平台Python GUI库
-
FLTK(FastLightToolkit)是一个轻量级的跨平台GUI库,特别适用于开发需要快速、高效且简单界面的应用程序。本文将介绍Python中的FLTK库,包括其特性、应用场景以及如何通过代...
- 中科院开源 RISC-V 处理器“香山”流片,已成功运行 Linux
-
IT之家1月29日消息,去年6月份,中科院大学教授、中科院计算所研究员包云岗,发布了开源高性能RISC-V处理器核心——香山。近日,包云岗在社交平台晒出图片,香山芯片已流片,回片后...
- Linux 5.13内核有望合并对苹果M1处理器支持的初步代码
-
预计Linux5.13将初步支持苹果SiliconM1处理器,不过完整的支持工作可能还需要几年时间才能完全完成。虽然Linux已经可以在苹果SiliconM1上运行,但这需要通过一系列的补丁才能...
- Ubuntu系统下COM口测试教程(ubuntu port)
-
1、在待测试的板上下载minicom,下载minicom有两种方法:方法一:在Ubuntu软件中心里面搜索下载方法二:按“Ctrl+Alt+T”打开终端,打开终端后输入“sudosu”回车;在下...
- 湖北嵌入式软件工程师培训怎么选,让自己脱颖而出
-
很多年轻人毕业即失业、面试总是不如意、薪酬不满意、在家躺平。“就业难”该如何应对,参加培训是否能改变自己的职业走向,在湖北,有哪些嵌入式软件工程师培训怎么选值得推荐?粤嵌科技在嵌入式培训领域有十几年经...
- 新阁上位机开发---10年工程师的Modbus总结
-
前言我算了一下,今年是我跟Modbus相识的第10年,从最开始的简单应用到协议了解,从协议开发到协议讲解,这个陪伴了10年的协议,它一直没变,变的只是我对它的理解和认识。我一直认为Modbus协议的存...
- 创建你的第一个可运行的嵌入式Linux系统-5
-
@ZHangZMo在MicrochipBuildroot中配置QT5选择Graphic配置文件增加QT5的配置修改根文件系统支持QT5修改output/target/etc/profile配置文件...
- 如何在Linux下给zigbee CC2530实现上位机
-
0、前言网友提问如下:粉丝提问项目框架汇总下这个网友的问题,其实就是实现一个网关程序,内容分为几块:下位机,通过串口与上位机相连;下位机要能够接收上位机下发的命令,并解析这些命令;下位机能够根据这些命...
- Python实现串口助手 - 03串口功能实现
-
串口调试助手是最核心的当然是串口数据收发与显示的功能,pzh-py-com借助的是pySerial库实现串口收发功能,今天痞子衡为大家介绍pySerial是如何在pzh-py-com发挥功能的。一、...
- 为什么选择UART(串口)作为调试接口,而不是I2C、SPI等其他接口
-
UART(通用异步收发传输器)通常被选作调试接口有以下几个原因:简单性:协议简单:UART的协议非常简单,只需设置波特率、数据位、停止位和校验位就可以进行通信。相比之下,I2C和SPI需要处理更多的通...
- 同一个类,不同代码,Qt 串口类QSerialPort 与各种外设通讯处理
-
串口通讯在各种外设通讯中是常见接口,因为各种嵌入式CPU中串口标配,工业控制中如果不够还通过各种串口芯片进行扩展。比如spi接口的W25Q128FV.对于软件而言,因为驱动接口固定,软件也相对好写,因...
- 嵌入式linux为什么可以通过PC上的串口去执行命令?
-
1、uboot(负责初始化基本硬bai件,如串口,网卡,usb口等,然du后引导系统zhi运行)2、linux系统(真正的操作系统)3、你的应用程序(基于操作系统的软件应用)当你开发板上电时,u...
你 发表评论:
欢迎- 一周热门
- 最近发表
-
- go语言也可以做gui,go-fltk让你做出c++级别的桌面应用
- 旧电脑的首选系统:TinyCore!体积小+精简+速度极快,你敢安装吗
- codeblocks和VS2019下的fltk使用中文
- FLTK(Fast Light Toolkit)一个轻量级的跨平台Python GUI库
- 中科院开源 RISC-V 处理器“香山”流片,已成功运行 Linux
- Linux 5.13内核有望合并对苹果M1处理器支持的初步代码
- Ubuntu系统下COM口测试教程(ubuntu port)
- 湖北嵌入式软件工程师培训怎么选,让自己脱颖而出
- 新阁上位机开发---10年工程师的Modbus总结
- 创建你的第一个可运行的嵌入式Linux系统-5
- 标签列表
-
- wireshark怎么抓包 (75)
- qt sleep (64)
- cs1.6指令代码大全 (55)
- factory-method (60)
- sqlite3_bind_blob (52)
- hibernate update (63)
- c++ base64 (70)
- nc 命令 (52)
- wm_close (51)
- epollin (51)
- sqlca.sqlcode (57)
- lua ipairs (60)
- tv_usec (64)
- 命令行进入文件夹 (53)
- postgresql array (57)
- statfs函数 (57)
- .project文件 (54)
- lua require (56)
- for_each (67)
- c#工厂模式 (57)
- wxsqlite3 (66)
- dmesg -c (58)
- fopen参数 (53)
- tar -zxvf -c (55)
- 速递查询 (52)