mptcp: fix possible stall on recvmsg()

author Paolo Abeni <pabeni@redhat.com>

Thu, 7 Oct 2021 22:05:00 +0000 (15:05 -0700)

committer David S. Miller <davem@davemloft.net>

Fri, 8 Oct 2021 13:55:54 +0000 (14:55 +0100)
author Paolo Abeni <pabeni@redhat.com>
Thu, 7 Oct 2021 22:05:00 +0000 (15:05 -0700)
committer David S. Miller <davem@davemloft.net>
Fri, 8 Oct 2021 13:55:54 +0000 (14:55 +0100)
diff --git a/net/mptcp/protocol.c b/net/mptcp/protocol.c

index e5df0b5971c86adbeaae5fc8ad86c0e8ca375ea2..d073b211138287342cf6c2faf6b0fc299c203205 100644 (file)
--- a/net/mptcp/protocol.c
+++ b/net/mptcp/protocol.c
@@ -528,7 +528,6 @@ static bool mptcp_check_data_fin(struct sock *sk)
  
                 sk->sk_shutdown |= RCV_SHUTDOWN;
                 smp_mb__before_atomic(); /* SHUTDOWN must be visible first */
-               set_bit(MPTCP_DATA_READY, &msk->flags);
  
                 switch (sk->sk_state) {
                 case TCP_ESTABLISHED:
@@ -742,10 +741,9 @@ void mptcp_data_ready(struct sock *sk, struct sock *ssk)
  
         /* Wake-up the reader only for in-sequence data */
         mptcp_data_lock(sk);
-       if (move_skbs_to_msk(msk, ssk)) {
-               set_bit(MPTCP_DATA_READY, &msk->flags);
+       if (move_skbs_to_msk(msk, ssk))
                 sk->sk_data_ready(sk);
-       }
+
         mptcp_data_unlock(sk);
  }
  
@@ -847,7 +845,6 @@ static void mptcp_check_for_eof(struct mptcp_sock *msk)
                 sk->sk_shutdown |= RCV_SHUTDOWN;
  
                 smp_mb__before_atomic(); /* SHUTDOWN must be visible first */
-               set_bit(MPTCP_DATA_READY, &msk->flags);
                 sk->sk_data_ready(sk);
         }
  
@@ -1759,21 +1756,6 @@ out:
         return copied ? : ret;
  }
  
-static void mptcp_wait_data(struct sock *sk, long *timeo)
-{
-       DEFINE_WAIT_FUNC(wait, woken_wake_function);
-       struct mptcp_sock *msk = mptcp_sk(sk);
-
-       add_wait_queue(sk_sleep(sk), &wait);
-       sk_set_bit(SOCKWQ_ASYNC_WAITDATA, sk);
-
-       sk_wait_event(sk, timeo,
-                     test_bit(MPTCP_DATA_READY, &msk->flags), &wait);
-
-       sk_clear_bit(SOCKWQ_ASYNC_WAITDATA, sk);
-       remove_wait_queue(sk_sleep(sk), &wait);
-}
-
  static int __mptcp_recvmsg_mskq(struct mptcp_sock *msk,
                                 struct msghdr *msg,
                                 size_t len, int flags,
@@ -2077,19 +2059,7 @@ static int mptcp_recvmsg(struct sock *sk, struct msghdr *msg, size_t len,
                 }
  
                 pr_debug("block timeout %ld", timeo);
-               mptcp_wait_data(sk, &timeo);
-       }
-
-       if (skb_queue_empty_lockless(&sk->sk_receive_queue) &&
-           skb_queue_empty(&msk->receive_queue)) {
-               /* entire backlog drained, clear DATA_READY. */
-               clear_bit(MPTCP_DATA_READY, &msk->flags);
-
-               /* .. race-breaker: ssk might have gotten new data
-                * after last __mptcp_move_skbs() returned false.
-                */
-               if (unlikely(__mptcp_move_skbs(msk)))
-                       set_bit(MPTCP_DATA_READY, &msk->flags);
+               sk_wait_data(sk, &timeo, NULL);
         }
  
  out_err:
@@ -2098,9 +2068,9 @@ out_err:
                         tcp_recv_timestamp(msg, sk, &tss);
         }
  
-       pr_debug("msk=%p data_ready=%d rx queue empty=%d copied=%d",
-                msk, test_bit(MPTCP_DATA_READY, &msk->flags),
-                skb_queue_empty_lockless(&sk->sk_receive_queue), copied);
+       pr_debug("msk=%p rx queue empty=%d:%d copied=%d",
+                msk, skb_queue_empty_lockless(&sk->sk_receive_queue),
+                skb_queue_empty(&msk->receive_queue), copied);
         if (!(flags & MSG_PEEK))
                 mptcp_rcv_space_adjust(msk, copied);
  
@@ -2368,7 +2338,6 @@ static void mptcp_check_fastclose(struct mptcp_sock *msk)
         inet_sk_state_store(sk, TCP_CLOSE);
         sk->sk_shutdown = SHUTDOWN_MASK;
         smp_mb__before_atomic(); /* SHUTDOWN must be visible first */
-       set_bit(MPTCP_DATA_READY, &msk->flags);
         set_bit(MPTCP_WORK_CLOSE_SUBFLOW, &msk->flags);
  
         mptcp_close_wake_up(sk);
@@ -3385,8 +3354,14 @@ unlock_fail:
  
  static __poll_t mptcp_check_readable(struct mptcp_sock *msk)
  {
-       return test_bit(MPTCP_DATA_READY, &msk->flags) ? EPOLLIN | EPOLLRDNORM :
-              0;
+       /* Concurrent splices from sk_receive_queue into receive_queue will
+        * always show at least one non-empty queue when checked in this order.
+        */
+       if (skb_queue_empty_lockless(&((struct sock *)msk)->sk_receive_queue) &&
+           skb_queue_empty_lockless(&msk->receive_queue))
+               return 0;
+
+       return EPOLLIN | EPOLLRDNORM;
  }
  
  static __poll_t mptcp_check_writeable(struct mptcp_sock *msk)
@@ -3421,7 +3396,7 @@ static __poll_t mptcp_poll(struct file *file, struct socket *sock,
         state = inet_sk_state_load(sk);
         pr_debug("msk=%p state=%d flags=%lx", msk, state, msk->flags);
         if (state == TCP_LISTEN)
-               return mptcp_check_readable(msk);
+               return test_bit(MPTCP_DATA_READY, &msk->flags) ? EPOLLIN | EPOLLRDNORM : 0;
  
         if (state != TCP_SYN_SENT && state != TCP_SYN_RECV) {
                 mask |= mptcp_check_readable(msk);
author	Paolo Abeni <pabeni@redhat.com>
	Thu, 7 Oct 2021 22:05:00 +0000 (15:05 -0700)
committer	David S. Miller <davem@davemloft.net>
	Fri, 8 Oct 2021 13:55:54 +0000 (14:55 +0100)