记一次A800显卡服务器掉卡排查

前几天突然出现服务器掉卡，本来有8张A800显卡的，从8张掉到6张，后面只掉剩4张了，nvidis-smi不显示那四张显卡，lspci |grep -i nvidia却又能识别到所有的八张卡

于是进行排查

dmesg显示是NVRM出了问题

重启服务器后，华硕服务器主板显示了B9错误，也就是表示主板出现了问题，让人感到神奇

再次重启华硕主板又显示AE错误码，只能进行硬重启（拔电源

开机后先查看下系统内核日志

使用下面命令可以查看内核日志十天内中nvidia显卡的报错

1
journalctl --since `date -d "10 days ago" "+%Y-%m-%d"`|grep Xid

从上面看到报的是Xid:140，官方文档对140报错的解读

使用nvidia-smi -q获取更加详细的关于显卡的信息

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
(py310) ps@ps:~$ nvidia-smi -q

==============NVSMI LOG==============

GPU 00000000:20:00.0
    Product Name                          : NVIDIA A800 80GB PCIe
    Product Brand                         : NVIDIA
    Product Architecture                  : Ampere
    Display Mode                          : Enabled
......
        Aggregate
            SRAM Correctable              : 0
            SRAM Uncorrectable Parity     : 0
            SRAM Uncorrectable SEC-DED    : 0
            DRAM Correctable              : 151
            DRAM Uncorrectable            : 439
            SRAM Threshold Exceeded       : No

如果你不想看这么一长串的输出，可以直接用下面这个命令

1
nvidia-smi --query-gpu=index,pci.bus_id,name,ecc.errors.corrected.aggregate.dram,ecc.errors.uncorrected.aggregate.dram --format=csv

可以直接输出ECC相关的错误次数

发现出现这么多ECC错误，来看看英伟达是怎么说的

看到Aggregate的DRAM Correctable和DRAM Uncorrectable都积累的厉害，他们的意思是累计DRAM无法纠正错误次数，也就是说卡可能坏了。。。

于是决定送修