0°

Ubantu19下的TensorFlow-GPU版本的环境搭建

2019-6-23

好记性不如烂笔头

Ubantu下的TensorFlow-GPU版本的环境搭建背景环境说明安装步骤准备环境安装TensorFLow-GPU安装显卡支持显卡驱动CUDA/cudnn安装验证安装后记FAQ

背景

在win7下做TF开发,已经有几个项目跑起来了。但在做到目标检测例子的时候,发现COCO数据集安装pycocotools死活在win下搞不定,而且原作者还很牛逼的说不支持,虽然民间有牛人在,但是我还是乘着这个机会,转到Ubantu。

同时将GPU版本的TF搭建记录下来。

笔者没有linux系统开发经验,所以可以是新手上任,大家多多提意见,也请多多包含。

环境说明

  • Ubantu:19

  • Anaconda:3

  • python:3.7

  • TensorFlow-GPU:1.13.1

  • CUDA/cudnn:10+/7.6

  • 显卡:GTX960:418.56号驱动

安装步骤

准备环境

  • annaconda

    操作系统OK过后,安装Anaconda,选择linux版本,下载过后是一个.sh文件,运行命令行

    bash Anaconda3-2018.12-Linux-x86_64.sh
    

​ 然后一路yes,等待安装完成。Annaonda会帮忙安装python,注意看即可。

  • 检查显卡是否可以适配

    • 显卡有硬件要求:目前只有N卡支持,在N卡官网有支持显卡列表,请见
    • 软件对应版本构建:google已经有对应构建参考表出来,请见,我们需要关注几个项
      • tensorflow版本
      • python版本
      • 显卡版本请见文后描述
  • 查询显卡驱动

    查看显卡驱动是为了确保我们的CUDA、cudnn等N卡训练支持

    spci |grep -i vga
    01:00.0 VGA compatible controller: NVIDIA Corporation GM206 [GeForce GTX 960] (rev a1)
    

    显示GPU使用情况,用以下命令:

    nvidia-smi #(显示一次当前GPU占用情况)
    nvidia-smi -l #(每秒刷新一次并显示)
    watch -n 5 nvidia-smi  #(其中,5表示每隔6秒刷新一次终端的显示结果)
    

    我猜,当你输入过后,是如下表现

    (base) leonliang@Leonliang-RP:/$ nvidia-smi 
    VIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
    

    这说明,你需要装驱动(请见后续“安装显卡支持”章节描述)。

    这里附上显卡驱动跟CUDA的版本匹配关系。我建议你现在不要下载,等待Anaconda完成TF安装后,再作决定。

安装TensorFLow-GPU

通过Anaconda安装TF-GPU,推荐这里使用Anaconda的虚环境进行环境创建。

conda search tensorflow-gpu # 先查找下安装版本
……
tensorflow-gpu                 1.9.0      hf154084_0  pkgs/main           
tensorflow-gpu                1.10.0      hf154084_0  pkgs/main           
tensorflow-gpu                1.11.0      h0d30ee6_0  pkgs/main           
tensorflow-gpu                1.12.0      h0d30ee6_0  pkgs/main           
tensorflow-gpu                1.13.1      h0d30ee6_0  pkgs/main   

选择1.13.1版本进行安装:

在你选择了yes过后,需要一个漫长的等待,如果你怕卡死,可以打开ubantu的‘系统监视器’,查看网速一栏,兴许可以找到活着的感觉。

conda install tensorflow-gpu=1.13.1
……
cudatoolkit        pkgs/main/linux-64::cudatoolkit-10.0.130-0
cudnn              pkgs/main/linux-64::cudnn-7.6.0-cuda10.0_0
……

在这里,我们看到Anaconda安装的CUDA=10+,cudnn是7.6,所以我们将显卡驱动更新到最新的410+吧(驱动–CUDA对应表),具体可以见后面论述显卡安装的章节。

anaconda会帮安装cuda和cudnn,省去一大堆事情!!强烈建议用此方法!

另外在官网上,推荐用nightly安装,请读者自行关注。

安装显卡支持

显卡驱动

已经知道Anaconda下载的CUDA=10,cudnn=7.6,那我们得知道显卡的驱动版本驱动–CUDA对应表,如下:


img

网上有在Ubantu上N卡安装驱动的三种方法,各位可以看自己喜好进行安装。

笔者采用的安装方法比较奇葩,是在一个Ubantu问题反馈中找到的,如此

What I've tried:
* Use the default that drivers that Ubuntu came with * Install the drivers using the apt-get install nvidia-driver-418
* Install the drivers using Nvidia installer (wihtout x11 running, using sh ./NVIDIA-Linux-x86_64-418.56.run) #这一步我没做
* Run nvidia-settings 
* Use lightDM and not GNOM 
* Purge all nvidia* and install the nvidia-driver-390 from the distro (and not the recommended one)
* And many more suggestions that I found online
What is my status right now
The driver is still not working -  # 之所以没用,是因为Ubantu需要重启

请注意,安装完驱动后,重启机器。请见

我相信你可能会遇到连接超时问题,比如如下:

……
W: 无法下载 http://ppa.launchpad.net/openjdk-r/ppa/ubuntu/dists/disco/InRelease  无法连接上 ppa.launchpad.net:80 (91.189.95.83),连接超时 [IP: 91.189.95.83 80]
……

我相信代理可以帮你解决这个问题,简单来说,如下:

1、安装npm
sudo apt-get install npm
2、下载安装http代理
npm i -g http-proxy-to-socks
3、使用代理
sudo apt-get -oAcquire::Http::Proxy= update
成功!

CUDA/cudnn安装

Anaconda在安装TF-GPU的时候,自动安好了。这里啥都不用管!!

验证安装

确认一切就位过后,敲入如下python代码,进行GPU调用实验(笔者这里是虚环境,请在对应环境中运行)。

怎么使用anaconda的spyder IDE?

——终端中输入spyder即可,注意使用IDE的时候,终端不能关掉

import tensorflow as tf
import numpy as np
 
# 使用 NumPy 生成假数据(phony data), 总共 100 个点.
x_data = np.float32(np.random.rand(2, 100)) # 随机输入
y_data = np.dot([0.100, 0.200], x_data) + 0.300
 
# 构造一个线性模型
#
b = tf.Variable(tf.zeros([1]))
W = tf.Variable(tf.random_uniform([1, 2], -1.0, 1.0))
y = tf.matmul(W, x_data) + b
 
# 最小化方差
loss = tf.reduce_mean(tf.square(y - y_data))
optimizer = tf.train.GradientDescentOptimizer(0.5)
train = optimizer.minimize(loss)
 
# 初始化变量
init = tf.initialize_all_variables()
 
# 启动图 (graph)
sess = tf.Session()
sess.run(init)
 
# 拟合平面
for step in range(0, 201):
    sess.run(train)
    if step % 20 == 0:
        print (step, sess.run(W), sess.run(b))
 
# 得到最佳拟合结果 W: [[0.100  0.200]], b: [0.300]

在结果中,我们多少能够看到调用CUDA,GPU等成功信息。

后记

Ubantu给人的感觉挺好,特别是下载速度,简直比win快太多了。

关于安装:更为详细的信息,请见TF官网GPU描述

FAQ

Q:我没有Ubantu经验,直接切到Ubantu会不适应么?

A:确实是不适应,但是系统自身就帮你把线网卡,浏览器,以及输入法,word,excel等软件自动搞定了,有问题直接上网解决,如果作开发的话,是没有什么害怕的。玩游戏什么的,基本无望。

Q:A卡可以作训练么?

A:对不起我暂时还不了解这个事情

Q:请问目前我的显卡驱动就算最新了,跟anaconda下载的cuda驱动都不匹配,怎么办?

A:先试一下“验证安装”的内容是否能跑过?如果不可以,在Anaconda环境中手工对CUDA和cudnn进行针对显卡驱动的适配。如果这样还不行,那么我觉得您可能要考虑换机器了。

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!