• 在阿里云上使用 GPU 实例运行 Tensorflow(Ziyang)

    在阿里云上使用 GPU 实例运行 Tensorflow(Ziyang)

    国内也有部分云服务商(如 阿里云 和 腾讯云 )提供了 GPU 实例,且可按量计费。至本手册撰写时,具备单个GPU的实例价格在数元(Tesla P4)至二十多元(Tesla V100)每小时不等。以下我们简要介绍在阿里云使用 GPU 实例。

    提示

    根据不同的地区、配置和付费方式,实例的价格也是多样化的,请根据需要合理选择。如果是临时需要的计算任务,可以考虑按量付费以及使用抢占式VPS,以节约资金。

    访问 https://cn.aliyun.com/product/ecs/gpu ,点击购买,界面如下:

    ../../_images/vps_select.png

    此处,我们选择一个带有 Tesla P4 计算卡的实例。

    在系统镜像中,阿里云提供多种选择,可以根据需要选择合适的镜像。

    ../../_images/os_image_config_with_driver.png如果选择“公共镜像”,可以根据提示选择提前预装GPU驱动,可以避免后续安装驱动的麻烦。

    ../../_images/os_image_with_RAPIDS.png在“镜像市场”中,官方也提供了适合深度学习的定制镜像。在本示例中我们选择预装了 NVIDIA RAPIDS 的 Ubuntu 16.04 镜像。

    然后,通过 ssh 连接上我们选购的服务器,并使用 nvidia-smi 查看 GPU 信息:

    1. (rapids) root@iZ8vb2567465uc1ty3f4ovZ:~# nvidia-smi
    2. Sun Aug 11 23:53:52 2019
    3. +-----------------------------------------------------------------------------+
    4. | NVIDIA-SMI 418.67 Driver Version: 418.67 CUDA Version: 10.1 |
    5. |-------------------------------+----------------------+----------------------+
    6. | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
    7. | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
    8. |===============================+======================+======================|
    9. | 0 Tesla P4 On | 00000000:00:07.0 Off | 0 |
    10. | N/A 29C P8 6W / 75W | 0MiB / 7611MiB | 0% Default |
    11. +-------------------------------+----------------------+----------------------+
    12.  
    13. +-----------------------------------------------------------------------------+
    14. | Processes: GPU Memory |
    15. | GPU PID Type Process name Usage |
    16. |=============================================================================|
    17. | No running processes found |
    18. +-----------------------------------------------------------------------------+

    确认了驱动无误之后,其他操作就可以照常执行了。

    提示

    阿里云这类国内的云服务提供商一般对于 VPS 的端口进行了安全策略限制,请关注所使用的端口是否在安全策略的放行列表中,以免影响Tensorflow Serving和Tensorboard的使用。