• 运行示例
    • 1 上传训练数据至hdfs路径
    • 2 提交运行

    运行示例

    在XLearning客户端,使用$XLEARNING_HOME/bin/xl-submit提交脚本将作业提交至Yarn集群。以TensorFlow作业提交为例:

    1 上传训练数据至hdfs路径

    将发布包解压后的data文件夹上传至hdfs,如:

    1. cd $XLEARNING_HOME
    2. hadoop fs -put data /tmp/

    2 提交运行

    1. cd $XLEARNING_HOME/examples/tensorflow
    2. $XLEARNING_HOME/bin/xl-submit \
    3. --app-type "tensorflow" \
    4. --app-name "tf-demo" \
    5. --input /tmp/data/tensorflow#data \
    6. --output /tmp/tensorflow_model#model \
    7. --files demo.py,dataDeal.py \
    8. --launch-cmd "python demo.py --data_path=./data --save_path=./model --log_dir=./eventLog --training_epochs=10" \
    9. --worker-memory 10G \
    10. --worker-num 2 \
    11. --worker-cores 3 \
    12. --ps-memory 1G \
    13. --ps-num 1 \
    14. --ps-cores 2 \
    15. --queue default \

    提交脚本各参数含义如下:

    参数名称含义
    app-name作业名称为 "tf-demo"
    app-type作业类型为 "tensorflow"
    input输入文件,HDFS路径:/tmp/data/tensorflow,对应本地路径./data
    output输出文件,HDFS路径:/tmp/tensorflow_model,对应本地路径./model
    files需要传给各container的本地文件,包括 demo.py、dataDeal.py
    launch-cmd训练执行命令
    worker-memoryworker内存使用为10G
    worker-numworker数目为2
    worker-coresworker使用CPU核数为3
    ps-memoryparameterServer内存使用为1G
    ps-numparameterServer数目为1
    ps-coresparameterServer使用CPU核数为2
    queue作业提交队列

    更多相关参数详细说明请见运行提交参数部分。