centos7.7升级+cuda10.1+tensorflow2.0安装

阿里云双11来了!从本博客参与阿里云,服务器最低只要86元/年!

1.系统升级

更新前查看当前机器状态,同时做好备份:
1.1 查看当前centOS版本:
cat /etc/redhat-release
1.2 备份相关重要文件:
cp xxx data/backup
1.3 检查更新:
yum check-update
(如果速度太慢,建议暂停,配置yum国内源后重新进行)
1.4 更新系统:
yum update
更新后reboot重启机器,执行1.1,查看更新后的系统版本。

更新后启动时可能会遇到的问题1:
0.000000 [Firmware Bug]: TSC_DEADLINE disabled due to Errata; please update microcode to version: 0xb000020 (or later)
解决方法1:进入系统后:
Ubuntu:apt-get install intel-microcode
CentOS:yum install microcode_ctl
解决方法2:无视该错误。我检查了我的mircocode_ctl处于最新版本,该报错暂不影响使用,so no error just warning.

更新后启动时可能会遇到的问题2:
启动后,加载服务慢或者长时间黑屏,即:
When you reboot, still you may get black or purple screen.
解决方法:
Press Ctrl+Alt+F1/F2 and login with your username and password.
参考链接

2.NVIDIA 显卡驱动升级

因为cuda安装与显卡驱动版本紧密相关,尽可能保证你所要安装的cuda版本与显卡驱动版本对应。
官网上的显卡驱动与CUDA版本对应关系:
https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html


1

2.1 查看显卡
lspci | grep VGA # 查看集成显卡
lspci | grep NVIDIA # 查看NVIDIA显卡


结果

可以看到本机的显卡数量和型号。
2.2 显卡驱动下载
nvida官网下载对应的显卡驱动。可以根据cuda版本下载对应的驱动版本,如果安装最新版cuda默认下载最新版驱动即可。
https://www.nvidia.com/Download/index.aspx
2.3 禁用nouveau
nouveau不在这里详细介绍,只需知道有nouveau运行无法安装NVIDIA显卡驱动。
查看nouveau运行状态:lsmod | grep nouveau
禁用开源驱动nouveau:sudo vi /etc/modprobe.d/blacklist.conf
在文本中添加:blacklist nouveau
设置文本模式启动系统:
systemctl get-default
systemctl set-default multi-user.target
设定完后reboot,重启后发现系统以文本模式启动,nouveau不再运行
2.4 安装NVIDIA驱动
找到下载的驱动,./NVIDIA∗∗∗.run,一路ok,安装完成。

3. cuda安装/升级

CUDA版本要注意与 linux 版本,以及GCC版本对应关系:
https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html


版本对应

3.1 版本检查
如果是更新了最新的系统,安装最新版cuda,版本应该不会有问题,旧版本的系统和cuda注意做好版本检查:
内核版本 :uname - acat /proc/version
GCC 版本:gcc --version
GLIBC版本:ldd --version
3.2 cuda下载
下载官网:https://developer.nvidia.com/cuda-downloads?target_os=Linux
我下载的是10.1最新版cuda:
wget http://developer.download.nvidia.com/compute/cuda/10.1/Prod/local_installers/cuda-repo-rhel7-10-1-local-10.1.243-418.87.00-1.0-1.x86_64.rpm
3.3 cuda安装
sudo rpm -i cuda-repo-rhel7-10-1-local-10.1.243-418.87.00-1.0-1.x86_64.rpm
sudo yum clean all
sudo yum -y install cuda

可能遇到的问题:
xorg启动时报错:
NVIDIA: Failed to initialize the NVIDIA kernel module. Please see the system's kernel log for additional error messages.
检查内核日志,发现是cuda要求的内核版本与驱动的内核版本不一致。这个错误很奇怪,因为最新版驱动满足官网说明要求,感觉是cuda的代码问题,不影响使用,没处理该错误。

4.tensorflow2.0安装

配置好驱动和cuda,tensorflow很好安装,我使用了conda,创建一个新环境,用pip安装:
pip install tensorflow-gpu

https://www.jianshu.com/p/3e0451fc5c42

Python量化投资网携手4326手游为资深游戏玩家推荐:《千年一剑,传说再现!《轩辕剑龙舞云山》全平台公测定档10月25日!

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
Python
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论