Linux / 服务器 · 2019年5月24日 2

CentOS 7 T4 GPU驱动+CUDA卸载与升级

因为GPU服务器初始化会安装低版本的GPU驱动 396.**和CUDA 8.**

在测试T4 GPU服务器时不能正确识别到T4 GPU卡,需要安装支持T4卡的驱动和升级CUDA版本,下面为步骤:

1.download安装包

cd /tmp

下载GPUTESLA DRIVER FOR LINUX RHEL 7 418.67驱动(web页面https://www.nvidia.cn/Download/driverResults.aspx/146745/cn)

wget http://cn.download.nvidia.com/tesla/418.67/nvidia-diag-driver-local-repo-rhel7-418.67-1.0-1.x86_64.rpm

下载CUDA Toolkit 10.1 Update 1(web页面https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&target_distro=CentOS&target_version=7&target_type=rpmlocal)

wget https://developer.nvidia.com/compute/cuda/10.1/Prod/local_installers/cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64.rpm

2.卸载原有的旧版本驱动和CUDA

To remove CUDA Toolkit:

yum remove "*cublas*" "cuda*"

To remove NVIDIA Drivers:

yum remove "*nvidia*"

3.安装新版本驱动+CUDA

安装驱动需要依赖vulkan-filesystem

yum install vulkan-filesystem

如果yum源中没有这个包可以通过下面的方式下载安装

wget https://houzhibo.com/wp-content/uploads/2019/05/vulkan-filesystem-1.1.73.0-1.el7_.noarch.rpm_.zip

unzip vulkan-filesystem-1.1.73.0-1.el7_.noarch.rpm_.zip

rpm -ivh vulkan-filesystem-1.1.73.0-1.el7.noarch.rpm

rpm -ivh nvidia-diag-driver-local-repo-rhel7-418.67-1.0-1.x86_64.rpm

rpm -ivh cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64.rpm

sudo yum clean all

sudo yum install cuda

nvidia-smi 检测GPU是否被识别。