前几天突然出现服务器掉卡,本来有8张A800显卡的,从8张掉到6张,后面只掉剩4张了,nvidis-smi不显示那四张显卡,lspci |grep -i nvidia
却又能识别到所有的八张卡
于是进行排查

dmesg显示是NVRM出了问题

重启服务器后,华硕服务器主板显示了B9错误,也就是表示主板出现了问题,让人感到神奇
再次重启华硕主板又显示AE错误码,只能进行硬重启(拔电源
开机后先查看下系统内核日志
使用下面命令可以查看内核日志十天内中nvidia显卡的报错
1
| journalctl --since `date -d "10 days ago" "+%Y-%m-%d"`|grep Xid
|

从上面看到报的是Xid:140,官方文档对140报错的解读

使用nvidia-smi -q
获取更加详细的关于显卡的信息
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
| (py310) ps@ps:~$ nvidia-smi -q
==============NVSMI LOG==============
GPU 00000000:20:00.0
Product Name : NVIDIA A800 80GB PCIe
Product Brand : NVIDIA
Product Architecture : Ampere
Display Mode : Enabled
......
Aggregate
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 151
DRAM Uncorrectable : 439
SRAM Threshold Exceeded : No
|
如果你不想看这么一长串的输出,可以直接用下面这个命令
1
| nvidia-smi --query-gpu=index,pci.bus_id,name,ecc.errors.corrected.aggregate.dram,ecc.errors.uncorrected.aggregate.dram --format=csv
|
可以直接输出ECC相关的错误次数

发现出现这么多ECC错误,来看看英伟达是怎么说的

看到Aggregate的DRAM Correctable和DRAM Uncorrectable都积累的厉害,他们的意思是累计DRAM无法纠正错误次数,也就是说卡可能坏了。。。
于是决定送修