ena module for Driver Update Program
CentOS Sources
2019-01-09 fc384122a7a805dde4dbbf3c4c4ef94a5ca0f2fe
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
Date: Mon, 26 Nov 2018 09:50:12 -0500
From: linville@redhat.com
To: rhkernel-list@redhat.com
Subject: [RHEL7 30/31] net: ena: fix crash during ena_remove()
 
From: "John W. Linville" <linville@redhat.com>
 
BZ: https://bugzilla.redhat.com/show_bug.cgi?id=1633418
Brew: https://brewweb.engineering.redhat.com/brew/taskinfo?taskID=19216936
 
In ena_remove() we have the following stack call:
ena_remove()
  unregister_netdev()
  ena_destroy_device()
    netif_carrier_off()
 
Calling netif_carrier_off() causes linkwatch to try to handle the
link change event on the already unregistered netdev, which leads
to a read from an unreadable memory address.
 
This patch switches the order of the two functions, so that
netif_carrier_off() is called on a regiestered netdev.
 
To accomplish this fix we also had to:
1. Remove the set bit ENA_FLAG_TRIGGER_RESET
2. Add a sanitiy check in ena_close()
both to prevent double device reset (when calling unregister_netdev()
ena_close is called, but the device was already deleted in
ena_destroy_device()).
3. Set the admin_queue running state to false to avoid using it after
device was reset (for example when calling ena_destroy_all_io_queues()
right after ena_com_dev_reset() in ena_down)
 
Fixes: 944b28aa2982 ("net: ena: fix missing lock during device destruction")
Signed-off-by: Arthur Kiyanovski <akiyano@amazon.com>
Signed-off-by: David S. Miller <davem@davemloft.net>
(cherry picked from commit 58a54b9c62e206b8d5f6e59020bcb178fc271d8e)
Signed-off-by: John W. Linville <linville@redhat.com>
---
 drivers/net/ethernet/amazon/ena/ena_netdev.c | 21 ++++++++++----------
 1 file changed, 10 insertions(+), 11 deletions(-)
 
diff --git a/drivers/net/ethernet/amazon/ena/ena_netdev.c b/drivers/net/ethernet/amazon/ena/ena_netdev.c
index 7be3a5695897..235169ca8eab 100644
--- a/drivers/net/ethernet/amazon/ena/ena_netdev.c
+++ b/drivers/net/ethernet/amazon/ena/ena_netdev.c
@@ -1842,6 +1842,8 @@ static void ena_down(struct ena_adapter *adapter)
         rc = ena_com_dev_reset(adapter->ena_dev, adapter->reset_reason);
         if (rc)
             dev_err(&adapter->pdev->dev, "Device reset failed\n");
+        /* stop submitting admin commands on a device that was reset */
+        ena_com_set_admin_running_state(adapter->ena_dev, false);
     }
 
     ena_destroy_all_io_queues(adapter);
@@ -1908,6 +1910,9 @@ static int ena_close(struct net_device *netdev)
 
     netif_dbg(adapter, ifdown, netdev, "%s\n", __func__);
 
+    if (!test_bit(ENA_FLAG_DEVICE_RUNNING, &adapter->flags))
+        return 0;
+
     if (test_bit(ENA_FLAG_DEV_UP, &adapter->flags))
         ena_down(adapter);
 
@@ -2607,9 +2612,7 @@ static void ena_destroy_device(struct ena_adapter *adapter, bool graceful)
         ena_down(adapter);
 
     /* Stop the device from sending AENQ events (in case reset flag is set
-     *  and device is up, ena_close already reset the device
-     * In case the reset flag is set and the device is up, ena_down()
-     * already perform the reset, so it can be skipped.
+     *  and device is up, ena_down() already reset the device.
      */
     if (!(test_bit(ENA_FLAG_TRIGGER_RESET, &adapter->flags) && dev_up))
         ena_com_dev_reset(adapter->ena_dev, adapter->reset_reason);
@@ -3447,6 +3450,8 @@ err_rss:
     ena_com_rss_destroy(ena_dev);
 err_free_msix:
     ena_com_dev_reset(ena_dev, ENA_REGS_RESET_INIT_ERR);
+    /* stop submitting admin commands on a device that was reset */
+    ena_com_set_admin_running_state(ena_dev, false);
     ena_free_mgmnt_irq(adapter);
     ena_disable_msix(adapter);
 err_worker_destroy:
@@ -3519,18 +3524,12 @@ static void ena_remove(struct pci_dev *pdev)
 
     cancel_work_sync(&adapter->reset_task);
 
-    unregister_netdev(netdev);
-
-    /* If the device is running then we want to make sure the device will be
-     * reset to make sure no more events will be issued by the device.
-     */
-    if (test_bit(ENA_FLAG_DEVICE_RUNNING, &adapter->flags))
-        set_bit(ENA_FLAG_TRIGGER_RESET, &adapter->flags);
-
     rtnl_lock();
     ena_destroy_device(adapter, true);
     rtnl_unlock();
 
+    unregister_netdev(netdev);
+
     free_netdev(netdev);
 
     ena_com_rss_destroy(ena_dev);
-- 
2.17.2