大多是GPU顯卡溫度過高導致自動掛了,重啟電腦可以恢復,但是再次使用仍然會報錯。一般是顯卡核心硅脂干了,散熱層老化,換了就好了。
nvidia-smi命令逐個顯卡拉滿運行程序壓力測試排查,觀察GPU核心溫度,一般正常在60度左右,超過90度一般就會自動掛了。同時也觀察Fan風扇是否正常,看是不是風扇散熱問題。
nvidia-smi
image.png
參考:深度學習煩人的基礎知識(2)---Nvidia-smi功率低,util高---nvidia_smi參數詳解_gpu-util-CSDN博客