筆記本配置:
聯想拯救者系列i7,顯卡960M,16G內存,400G固態
選擇cuda和cudnn版本需要先看下注意事項的第一條!
目錄
I.安裝NVIDIA顯卡驅動
II.安裝多版本的CUDA
III.安裝多版本的cudnn
IV.多個CUDA版本切換
V.安裝pytorch
VI.注意事項
I.安裝NVIDIA顯卡驅動
0 下載驅動
去官網下載驅動run文件,我下載的驅動版本為440.82
1 禁用nouveau
1.1 進入blacklist,sudo gedit /etc/modprobe.d/blacklist.conf
1.2 在最后一行添加,blacklist nouveau
1.3 更新設置,sudo update-initramfs -u
1.4 重啟,reboot
2 關閉安全啟動
按F2進入BIOS,關閉安全啟動(必須關閉,否則無法安裝成功,而且安裝成功后也必須關閉,否則無法正常使用驅動)
3 安裝驅動
重啟進入ubuntu的GUI界面后,按Ctrl+Alt+F1進行命令行終端界面
3.1 確認nouveau關閉,lsmod | grep nouveau
,命令行無任何輸出即可
3.2 關閉圖形界面,sudo /etc/init.d/lightdm stop
3.3 給驅動run文件賦予執行權限,sudo chmod a+x NVIDIA-Linux-x86_64-440.82.run
3.4 安裝,sudo ./NVIDIA-Linux-x86_64-440.82.run -no-opengl-files
–no-opengl-files
表示只安裝驅動文件,不安裝OpenGL文件。這個參數不可省略,否則會導致登陸界面死循環
3.5 根據環境選擇安裝選項(關鍵)
有的博客寫到還需要提前裝一些lib庫,我的建議是先裸奔裝,失敗了再重新裝這些lib庫就行,直接進入3.5.1安裝!
以下是選項的回答(yes or no)
3.5.1 Register the Kernel module sources with DKMS?
回答:如果gcc是5.4版本選擇yes,否則選擇no,編譯DKMS需要GCC5.4編譯,所以我這里選擇no
3.5.2 Install NviDia' 32-bit libraries?
回答:Yes
3.5.3 ... is competed!
安裝完成
3.5.4 如果這里失敗了,需要卸載干凈再重新安裝從3.1步驟開始
sudo apt-get remove --purge nvidia*
sudo ./NVIDIA-Linux-x86_64-440.82.run --uninstall
3.5.5 如果仍然失敗,再重新試試幾次!!!可能再試幾次就可以了!!!!!
3.5.6 如果多次安裝仍然不行,則需要考慮安裝一些庫,需要自己根據實際情況google下.
sudo apt-get update
sudo apt-get install dkms build-essential linux-headers-generic
3.6 在命令行界面安裝完成后,檢測是否成功安裝,nvidia-smi
,有輸出即可.
3.7 打開圖形界面(這里不能直接reboot,得先回到圖形界面),sudo /etc/init.d/lightdm start
3.8 在圖形界面中再次檢測是否成功安裝,nvidia-smi
,有輸出即為安裝成功(這里可以看到有顯示cuda為10.2但其實好像并不不影響后面的cuda安裝),以后都需要關閉bios的安全啟動
,否則NVIDIA驅動都會被屏蔽
II.安裝多版本的CUDA
由于不同項目的環境不同, 需要安裝多個版本的CUDA
1 先去官網下載CUDA10.0和10.1,注意是.run
文件,不是.deb
。
2 CUDA10.1的安裝
注意,在cuda10.1安裝界面與cuda10.0不同
2.1 給可執行權限,sudo chmod a+x cuda_10.1.105_418.39_linux.run
2.2 然后運行安裝,sudo ./cuda_10.1.105_418.39_linux.run
,提示閱讀,一直按住enter即可,在第一個選項那里會停住
2.3 accpet
接受協議
2.4 勾選界面,不要選擇安裝驅動即可
2.5 安裝成功界面
這樣就已經安裝好了,就是這么簡單不要懷疑,只要不出error就可以
3 CUDA10.0的安裝
3.1 給可執行權限,sudo chmod a+x cuda_10.0.130_410.48_linux.run
3.2 然后運行安裝,sudo ./cuda_10.0.130_410.48_linux.run
3.3 提示閱讀,一直按住enter即可,在第一個選項那里會停住,以下是安裝選項的回答!
Do you accept the previously read EULA?
accept/decline/quit: accept
Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 410.48?
(y)es/(n)o/(q)uit: n #不安裝驅動
Install the CUDA 10.0 Toolkit?
(y)es/(n)o/(q)uit: y
Enter Toolkit Location
[ default is /usr/local/cuda-10.0 ]: 回車
Do you want to install a symbolic link at /usr/local/cuda?
(y)es/(n)o/(q)uit: n
Install the CUDA 10.0 Samples?
(y)es/(n)o/(q)uit: n
3.4安裝成功界面
4 檢查是否安裝成功
4.1 可以到/usr/local/
下,應該可以看到cuda-10.0和cuda-10.1的文件夾
4.2 在~/.bashrc
下添加特定版本的cuda路徑,使用nvcc --version
命令查看cuda版本
export PATH=$PATH:/usr/local/cuda-10.0/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-10.0/lib64
export LIBRARY_PATH=$LIBRARY_PATH:/usr/local/cuda-10.0/lib64
4.3 修改完后,source ~/.bashrc
更新下bashrc文件
4.4 使用nvcc --version
查看當前cuda版本
III.安裝cudnn
這里注意不同版本的cudnn文件需要拷貝到不同版本的cuda目錄中,不能拷貝到軟鏈接中去
1 去官網下載cudnn,需要注冊帳號才能下載,選擇cudnn for linux
2 解壓縮cudnn
不同版本的cudnn解壓出來的文件夾都是cuda
,需要把之前的文件夾刪掉,再解壓出來其它版本的cudnn,避免文件夾命名沖突
cudnn是一個庫,由頭文件和lib文件組成,把這兩部分文件分別拷貝到cuda目錄中即可
3 為cuda安裝cudnn
3.1 為cuda10.0安裝cudnn
sudo cp cuda/include/cudnn.h /usr/local/cuda-10.0/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda-10.0/lib64/
sudo chmod a+r /usr/local/cuda-10.0/include/cudnn.h
sudo chmod a+r /usr/local/cuda-10.0/lib64/libcudnn*
3.2 為cuda10.1安裝cudnn
sudo cp cuda/include/cudnn.h /usr/local/cuda-10.1/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda-10.1/lib64/
sudo chmod a+r /usr/local/cuda-10.1/include/cudnn.h
sudo chmod a+r /usr/local/cuda-10.1/lib64/libcudnn*
4 查看cudnn版本(注意使用的是軟鏈接)
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
IV.多個 cuda 版本之間進行切換
多版本下需要將~/.bashrc
下與cuda相關的路徑都改為/usr/local/cuda/
而不使用/usr/local/cuda-10.0/
或/usr/local/cuda-10.1/
,使用軟鏈接鏈接相應版本的cuda過去即可。
1 修改.bashrc
中的cuda路徑為軟鏈接路徑
export CUDA_HOME=/usr/local/cuda
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
export PATH=/usr/local/cuda/bin:$PATH
2 構造軟鏈接
2.1 切換cuda版本時
sudo rm -rf /usr/local/cuda #刪除之前創建的軟鏈接
sudo ln -s /usr/local/cuda-10.0/ /usr/local/cuda
nvcc --version #查看當前 cuda 版本
2.2 cuda10.0 切換到 cuda10.1
sudo rm -rf /usr/local/cuda
sudo ln -s /usr/local/cuda-10.1/ /usr/local/cuda
nvcc --version
V.安裝pytorch
1 使用conda創建相應版本的pytorch虛擬環境
conda create --name pytorch1.5
2 添加清華大學的鏡像源,以加速conda下載速度
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --set show_channel_urls yes
3 找到安裝pytorch的命令行代碼
3.1 這里有個技巧去pytorch官網查找安裝指定版本的pytorch的命令
3.2 安裝
在實際安裝的時候,去掉后面的選擇pytorch的channel,默認下載就是使用清華源下載,與pytoch的chaneel版本是一樣的
conda install pytorch torchvision cudatoolkit=10.1
3.3 安裝完成后,檢測是否安裝成功
進入python3.8的命令行交互式環境(pytorch1.5是基于python3.8構建的)
python3.8 # 進入python的命令行交互界面
import torch # torch安裝成功
import torchvision # torchvision安裝成功
from torch.backends import cudnn
# CUDA TEST
print(torch.cuda.is_available())
# cuDNN test
x = torch.Tensor([1.0])
xx = x.cuda()
print(cudnn.is_acceptable(xx))
輸出true
即為安裝成功.
VI.注意事項
1 在安裝的時候,可以看到提前根據自己需要的pytorch和torchvision版本有針對性的選擇python, cuda和cudnn版本
2 如果ubuntu系統為中文,記得把下載的文件都移到一個英文目錄中,否則Ctrl+Alt+F1進入命令行界面時,無法輸入中文
3 如果中途取消安裝,可以刪掉blacklist中的最后一行,然后使用相同的命令更新即可.
3.1 進入blacklist,sudo gedit /etc/modprobe.d/blacklist.conf
3.2 刪除最后一行,blacklist nouveau
3.3 更新設置,sudo update-initramfs -u
4 從命令行界面隨時可以進入圖形界面,sudo /etc/init.d/lightdm start
5 pytorch本身沒有gpu版本和cpu版本兩種代碼,只是根據機器上是否安裝了cuda決定是否進行GPU加速
6 安裝驅動前確認下自己的GCC版本是否是5.4
7 記得關閉ubuntu的自動更新,否則有可能會過段時間nvidia驅動就沒了??
參考
https://blog.csdn.net/u014561933/article/details/79958017 NVIDIA驅動安裝
https://cloud.tencent.com/developer/article/1362692 騰訊云-驅動-cuda-cudnn-pytorch安裝
https://blog.csdn.net/linwantian/article/details/79763490?from=singlemessage 趙木木的教程
https://blog.csdn.net/tunhuzhuang1836/article/details/79545625 安裝多版本cuda和cudnn
https://blog.csdn.net/maple2014/article/details/78574275 安裝多版本 cuda ,多版本之間切換
https://blog.csdn.net/mumoDM/article/details/79462604 多版本CUDA問題
https://blog.csdn.net/qq_19734597/article/details/103244847 關閉ubuntu的自動更新