在阿里云上使用 GPU 实例运行 Tensorflow（Ziyang）

在阿里云上使用 GPU 实例运行 Tensorflow（Ziyang）

国内也有部分云服务商（如阿里云和腾讯云）提供了 GPU 实例，且可按量计费。至本手册撰写时，具备单个GPU的实例价格在数元（Tesla P4）至二十多元（Tesla V100）每小时不等。以下我们简要介绍在阿里云使用 GPU 实例。

提示

根据不同的地区、配置和付费方式，实例的价格也是多样化的，请根据需要合理选择。如果是临时需要的计算任务，可以考虑按量付费以及使用抢占式VPS，以节约资金。

访问 https://cn.aliyun.com/product/ecs/gpu ，点击购买，界面如下：

../../_images/vps_select.png

此处，我们选择一个带有 Tesla P4 计算卡的实例。

在系统镜像中，阿里云提供多种选择，可以根据需要选择合适的镜像。

../../_images/os_image_config_with_driver.png 如果选择“公共镜像”，可以根据提示选择提前预装GPU驱动，可以避免后续安装驱动的麻烦。

../../_images/os_image_with_RAPIDS.png 在“镜像市场”中，官方也提供了适合深度学习的定制镜像。在本示例中我们选择预装了 NVIDIA RAPIDS 的 Ubuntu 16.04 镜像。

然后，通过 ssh 连接上我们选购的服务器，并使用 nvidia-smi 查看 GPU 信息：

(rapids) root@iZ8vb2567465uc1ty3f4ovZ:~# nvidia-smi
Sun Aug 11 23:53:52 2019
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 418.67       Driver Version: 418.67       CUDA Version: 10.1     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla P4            On   | 00000000:00:07.0 Off |                    0 |
| N/A   29C    P8     6W /  75W |      0MiB /  7611MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
 
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

确认了驱动无误之后，其他操作就可以照常执行了。

提示

阿里云这类国内的云服务提供商一般对于 VPS 的端口进行了安全策略限制，请关注所使用的端口是否在安全策略的放行列表中，以免影响Tensorflow Serving和Tensorboard的使用。