百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分析 > 正文

「linux」epoll和shutdown使用不当可能导致死循环

liebian365 2024-10-27 13:12 6 浏览 0 评论

linux服务器开发相关视频解析:

linux下的epoll实战揭秘——支撑亿级IO的底层基石

epoll的网络模型,从redis,memcached到nginx,一起搞定

首先来看段代码:

#include <arpa/inet.h>
#include <assert.h>
#include <errno.h>
#include <stdio.h>
#include <stdlib.h>
#include <strings.h>
#include <sys/epoll.h>
#include <sys/socket.h>
#include <sys/types.h>
#include <unistd.h>


#define PORT 9999
#define MAX_EVENTS 10


static int tcp_listen() {
  int lfd, opt, err;
  struct sockaddr_in addr;


  lfd = socket(AF_INET, SOCK_STREAM, IPPROTO_TCP);
  assert(lfd != -1);


  opt = 1;
  err = setsockopt(lfd, SOL_SOCKET, SO_REUSEADDR, &opt, sizeof(opt));
  assert(!err);


  bzero(&addr, sizeof(addr));
  addr.sin_family = AF_INET;
  addr.sin_addr.s_addr = INADDR_ANY;
  addr.sin_port = htons(PORT);


  err = bind(lfd, (struct sockaddr *)&addr, sizeof(addr));
  assert(!err);


  err = listen(lfd, 8);
  assert(!err);


  return lfd;
}


static void epoll_ctl_add(int epfd, int fd, int evts) {
  struct epoll_event ev;
  ev.events = evts;
  ev.data.fd = fd;
  int err = epoll_ctl(epfd, EPOLL_CTL_ADD, fd, &ev);
  assert(!err);
}


static void handle_events(struct epoll_event *e, int epfd) {
  int err;
  printf("events: %d -> %d\n", e->data.fd, e->events);


  err = shutdown(e->data.fd, SHUT_WR);
  // err = close(e->data.fd);
  if (err) {
    printf("shutdown errno: %d\n", errno);
    exit(123);
  }
}


int main(int argc, char *argv[]) {
  int epfd, lfd, cfd, n;
  struct epoll_event events[MAX_EVENTS];


  epfd = epoll_create1(0);
  assert(epfd != -1);


  lfd = tcp_listen();
  epoll_ctl_add(epfd, lfd, EPOLLIN);


  for (;;) {
    n = epoll_wait(epfd, events, MAX_EVENTS, -1);
    assert(n != -1);


    for (int i = 0; i < n; i++) {
      if (events[i].data.fd == lfd) {
        cfd = accept(lfd, NULL, NULL);
        assert(cfd != -1);
        epoll_ctl_add(epfd, cfd, EPOLLIN | EPOLLOUT | EPOLLET);
      } else {
        handle_events(&events[i], epfd);
      }
    }
  }


  return 0;
}

代码虽然有点长,但非常简单,就是tcp和epoll的基本操作,这里需要注意的是,在handle_events方法里,在输出了socket的event相关内容后,立即调用了shutdown方法,关闭该socket的send端。

看上去好像没什么问题,我们来执行试下。

下面是服务端的完整输出:

$ gcc server.c && ./a.out
events: 5 -> 4
events: 5 -> 4
events: 5 -> 4
events: 5 -> 4
... 省略大量的events输出 ...
shutdown errno: 107
$ echo $?
123

下面是用ncat模拟的客户端的完整操作流程:

nbsp;ncat localhost 9999
^C

当服务端开始执行我们上面的程序时,终端是没有任何输出的,它在等待客户端连接。

当我们用ncat命令对服务端发起连接时,服务器终端会一直输出events,陷入死循环。

当我们ctrl-c关闭ncat模拟的客户端时,服务端停止输出events,之后,在输出完shutdown errno后,调用exit退出程序。

最后,我们用echo命令输出服务端程序的exit code,发现确实是代码里指定的123。

由上可见,服务端代码在执行完shutdown后,陷入了死循环。

但为什么呢?我们还是通过linux内核源码来看下:

// net/ipv4/af_inet.c
int inet_shutdown(struct socket *sock, int how)
{
        struct sock *sk = sock->sk;
        ...
        switch (sk->sk_state) {
        case TCP_CLOSE:
                err = -ENOTCONN;
        default:
                sk->sk_shutdown |= how;
                if (sk->sk_prot->shutdown)
                        sk->sk_prot->shutdown(sk, how);
                break;
        ...
        }
        
        sk->sk_state_change(sk);
        ...
        return err;
}
EXPORT_SYMBOL(inet_shutdown);

系统调用shutdown最终会调用该方法,由上可见,该方法先设置了sk->sk_shutdown,然后又调用了sk->sk_prot->shutdown指向的方法,该方法内容如下:

// net/ipv4/tcp.c
void tcp_shutdown(struct sock *sk, int how)
{
        if (!(how & SEND_SHUTDOWN))
                return;


        /* If we've already sent a FIN, or it's a closed state, skip this. */
        if ((1 << sk->sk_state) &
            (TCPF_ESTABLISHED | TCPF_SYN_SENT |
             TCPF_SYN_RECV | TCPF_CLOSE_WAIT)) {
                /* Clear out any half completed packets.  FIN if needed. */
                if (tcp_close_state(sk))
                        tcp_send_fin(sk);
        }
}
EXPORT_SYMBOL(tcp_shutdown);

该方法的作用其实就是设置socket的状态和发送fin消息给对方。

【文章福利】需要C/C++ Linux服务器架构师学习资料加群812855908(资料包括C/C++,Linux,golang技术,Nginx,ZeroMQ,MySQL,Redis,fastdfs,MongoDB,ZK,流媒体,CDN,P2P,K8S,Docker,TCP/IP,协程,DPDK,ffmpeg等)

我们再继续看上面的inet_shutdown方法。

在调用完sk->sk_prot->shutdown之后,inet_shutdown方法又调用了sk->sk_state_change,而该方法的作用就是通知epoll,告诉它该socket又有事件发生。

当我们执行完shutdown系统调用后,epoll进入下一次循环,发现该socket又有事件发生了(就是上面sk->sk_state_change方法导致的事件),则继续执行我们代码中的handle_events方法,而该方法中又执行了shutdown系统调用,该系统调用又执行sk->sk_state_change方法,告知epoll该socket有事件发生,就这样,我们的代码就陷入了死循环。

为什么我们用ctrl-c关闭ncat客户端,服务端的程序能从死循环中退出呢?

我们知道,当关闭ncat客户端时,其socket会对应发送fin包给服务端,我们看下该fin包的处理流程:

// net/ipv4/tcp_input.c
void tcp_fin(struct sock *sk)
{
        ...
        sk->sk_shutdown |= RCV_SHUTDOWN;
        sock_set_flag(sk, SOCK_DONE);


        switch (sk->sk_state) {
        ...
        case TCP_FIN_WAIT2:
                /* Received a FIN -- send ACK and enter TIME_WAIT. */
                tcp_send_ack(sk);
                tcp_time_wait(sk, TCP_TIME_WAIT, 0);
                break;
        ...
        }
        ...
}

因为服务端之前调用过shutdown,所以,执行这个方法时,服务端socket的状态为TCP_FIN_WAIT2。

该方法在调用tcp_send_ack,发送最后一个ack给客户端之后,又调用了tcp_time_wait,使服务端socket进入到TIME_WAIT状态。

// net/ipv4/tcp_minisocks.c
void tcp_time_wait(struct sock *sk, int state, int timeo)
{
        ...
        struct inet_timewait_sock *tw;
        ...
        // tw对应的伪socket的状态会被标识为TIME_WAIT
        tw = inet_twsk_alloc(sk, tcp_death_row, state);


        if (tw) {
                ...
                // 拷贝sk中的各种必要数据到tw
                ...
                // 发起TIME_WAIT计时,计时结束后,从内核移除tw对应的伪socket
                inet_twsk_schedule(tw, timeo);
                // 将tw对应的伪socket加入到内核中,占用对应的地址,不让后续的bind/connect操作使用
                inet_twsk_hashdance(tw, sk, &tcp_hashinfo);
                ...
        } else {
                ...
        }


        ...
        tcp_done(sk);
}
EXPORT_SYMBOL(tcp_time_wait);

由该方法可见,进入TIME_WAIT的socket并不是我们的socket,而是类型为struct inet_timewait_sock的伪socket,这样做的目的应该是为了减少内存消耗。

该方法又调用了tcp_done:

// net/ipv4/tcp.c
void tcp_done(struct sock *sk)
{
        ...
        tcp_set_state(sk, TCP_CLOSE);
        ...
        sk->sk_shutdown = SHUTDOWN_MASK;


        if (!sock_flag(sk, SOCK_DEAD))
                sk->sk_state_change(sk);
        else
                ...
}
EXPORT_SYMBOL_GPL(tcp_done);

由该方法可见,我们socket的状态最终被设置为了TCP_CLOSE。

再回到上面的inet_shutdown方法,我们可以看到,当socket状态为TCP_CLOSE时,err的错误码会被赋值为ENOTCONN并返回给用户。

ENOTCONN对应的值和描述为:

// include/uapi/asm-generic/errno.h
#define ENOTCONN        107     /* Transport endpoint is not connected */

由上可见看到,该值正好就是我们程序最后输出的值,这也就解释了,为什么我们ctrl-c关闭ncat客户端后,服务端会跳出死循环,并输出shutdown errno为107。

再梳理下整个流程:

1. 当tcp连接建立后,服务端对应的socket满足EPOLLOUT事件,所以epoll会调用我们程序中的handle_events方法。

2. 在handle_events方法中,我们调用了shutdown系统调用。

3. shutdown系统调用内部又调用了sk->sk_state_change方法,告知epoll该socket又有对应对应的事件发生了。

4. 在handle_events方法结束之后,epoll进入下一次循环,检测到该socket又有事件发生,则继续调用handle_events方法。

5. handle_events方法里又调用了shutdown,shutdown方法里又通知epoll该socket有事件发生,就这样,服务端程序进入死循环。

6. 当我们用ctrl-c关闭ncat客户端时,其会发送一个fin包给服务端的socket。

7. 服务端的socket在收到fin包后,新创建一个类型为struct inet_timewait_sock的伪socket,该socket是用来占用原socket的地址,使后续的connect/bind操作无法使用该地址,并在各种工具的输出中显示该socket状态为TIME_WAIT。

8. 之后,原socket的状态会被设置为TCP_CLOSE。

9. 在我们的死循环流程再一次进入到inet_shutdown方法时,由于检测到该socket的状态为TCP_CLOSE,所以会设置该次操作的错误码为ENOTCONN,并返回给用户。

10. 由于该次shutdown操作有错误码返回,我们的程序会输出该错误码,并调用exit使该进程退出。

至此,整个流程就结束了。

由上可见,在epoll的socket处理逻辑部分,如果使用了shutdown方法,就会造成死循环。

那有什么方法可以避免这种死循环吗?

如果我们只是想单纯的关闭socket,其实用close方法就好了,这个是没有问题的,感兴趣的朋友可以将上面代码中的shutdown注释掉,用下面的close方法,运行后你会发现,不会有死循环发生。

原因是什么呢?

// fs/file_table.c
static void __fput(struct file *file)
{
        ...
        eventpoll_release(file);
        ...
}

由上方法可见,在close系统调用执行的过程中,会调用eventpoll_release方法,自动将该socket从epoll注册中移除,所以也就不会出现上面的死循环了。

阅读源码的能力太重要了,源码可以解决一切问题!

相关推荐

快递查询教程,批量查询物流,一键管理快递

作为商家,每天需要查询许许多多的快递单号,面对不同的快递公司,有没有简单一点的物流查询方法呢?小编的回答当然是有的,下面随小编一起来试试这个新技巧。需要哪些工具?安装一个快递批量查询高手快递单号怎么快...

一键自动查询所有快递的物流信息 支持圆通、韵达等多家快递

对于各位商家来说拥有一个好的快递软件,能够有效的提高自己的工作效率,在管理快递单号的时候都需要对单号进行表格整理,那怎么样能够快速的查询所有单号信息,并自动生成表格呢?1、其实方法很简单,我们不需要一...

快递查询单号查询,怎么查物流到哪了

输入单号怎么查快递到哪里去了呢?今天小编给大家分享一个新的技巧,它支持多家快递,一次能查询多个单号物流,还可对查询到的物流进行分析、筛选以及导出,下面一起来试试。需要哪些工具?安装一个快递批量查询高手...

3分钟查询物流,教你一键批量查询全部物流信息

很多朋友在问,如何在短时间内把单号的物流信息查询出来,查询完成后筛选已签收件、筛选未签收件,今天小编就分享一款物流查询神器,感兴趣的朋友接着往下看。第一步,运行【快递批量查询高手】在主界面中点击【添...

快递单号查询,一次性查询全部物流信息

现在各种快递的查询方式,各有各的好,各有各的劣,总的来说,还是有比较方便的。今天小编就给大家分享一个新的技巧,支持多家快递,一次能查询多个单号的物流,还能对查询到的物流进行分析、筛选以及导出,下面一起...

快递查询工具,批量查询多个快递快递单号的物流状态、签收时间

最近有朋友在问,怎么快速查询单号的物流信息呢?除了官网,还有没有更简单的方法呢?小编的回答当然是有的,下面一起来看看。需要哪些工具?安装一个快递批量查询高手多个京东的快递单号怎么快速查询?进入快递批量...

快递查询软件,自动识别查询快递单号查询方法

当你拥有多个快递单号的时候,该如何快速查询物流信息?比如单号没有快递公司时,又该如何自动识别再去查询呢?不知道如何操作的宝贝们,下面随小编一起来试试。需要哪些工具?安装一个快递批量查询高手快递单号若干...

教你怎样查询快递查询单号并保存物流信息

商家发货,快递揽收后,一般会直接手动复制到官网上一个个查询物流,那么久而久之,就会觉得查询变得特别繁琐,今天小编给大家分享一个新的技巧,下面一起来试试。教程之前,我们来预览一下用快递批量查询高手...

简单几步骤查询所有快递物流信息

在高峰期订单量大的时候,可能需要一双手当十双手去查询快递物流,但是由于逐一去查询,效率极低,追踪困难。那么今天小编给大家分享一个新的技巧,一次能查询多个快递单号的物流,下面一起来学习一下,希望能给大家...

物流单号查询,如何查询快递信息,按最后更新时间搜索需要的单号

最近有很多朋友在问,如何通过快递单号查询物流信息,并按最后更新时间搜索出需要的单号呢?下面随小编一起来试试吧。需要哪些工具?安装一个快递批量查询高手快递单号若干怎么快速查询?运行【快递批量查询高手】...

连续保存新单号功能解析,导入单号查询并自动识别批量查快递信息

快递查询已经成为我们日常生活中不可或缺的一部分。然而,面对海量的快递单号,如何高效、准确地查询每一个快递的物流信息,成为了许多人头疼的问题。幸运的是,随着科技的进步,一款名为“快递批量查询高手”的软件...

快递查询教程,快递单号查询,筛选更新量为1的单号

最近有很多朋友在问,怎么快速查询快递单号的物流,并筛选出更新量为1的单号呢?今天小编给大家分享一个新方法,一起来试试吧。需要哪些工具?安装一个快递批量查询高手多个快递单号怎么快速查询?运行【快递批量查...

掌握批量查询快递动态的技巧,一键查找无信息记录的两种方法解析

在快节奏的商业环境中,高效的物流查询是确保业务顺畅运行的关键。作为快递查询达人,我深知时间的宝贵,因此,今天我将向大家介绍一款强大的工具——快递批量查询高手软件。这款软件能够帮助你批量查询快递动态,一...

从复杂到简单的单号查询,一键清除单号中的符号并批量查快递信息

在繁忙的商务与日常生活中,快递查询已成为不可或缺的一环。然而,面对海量的单号,逐一查询不仅耗时费力,还容易出错。现在,有了快递批量查询高手软件,一切变得简单明了。只需一键,即可搞定单号查询,一键处理单...

物流单号查询,在哪里查询快递

如果在快递单号多的情况,你还在一个个复制粘贴到官网上手动查询,是一件非常麻烦的事情。于是乎今天小编给大家分享一个新的技巧,下面一起来试试。需要哪些工具?安装一个快递批量查询高手快递单号怎么快速查询?...

取消回复欢迎 发表评论: