• 7.7. AdaDelta算法
    • 7.7.1. 算法
    • 7.7.2. 从零开始实现
    • 7.7.3. 简洁实现
    • 7.7.4. 小结
    • 7.7.5. 练习
    • 7.7.6. 参考文献

    7.7. AdaDelta算法

    除了RMSProp算法以外,另一个常用优化算法AdaDelta算法也针对AdaGrad算法在迭代后期可能较难找到有用解的问题做了改进[1]。有意思的是,AdaDelta算法没有学习率这一超参数。

    7.7.1. 算法

    AdaDelta算法也像RMSProp算法一样,使用了小批量随机梯度

    7.7. AdaDelta算法 - 图1 按元素平方的指数加权移动平均变量 7.7. AdaDelta算法 - 图2 。在时间步0,它的所有元素被初始化为0。给定超参数 7.7. AdaDelta算法 - 图3 (对应RMSProp算法中的 7.7. AdaDelta算法 - 图4 ),在时间步 7.7. AdaDelta算法 - 图5 ,同RMSProp算法一样计算

    7.7. AdaDelta算法 - 图6

    与RMSProp算法不同的是,AdaDelta算法还维护一个额外的状态变量

    7.7. AdaDelta算法 - 图7 ,其元素同样在时间步0时被初始化为0。我们使用 7.7. AdaDelta算法 - 图8 来计算自变量的变化量:

    7.7. AdaDelta算法 - 图9

    其中

    7.7. AdaDelta算法 - 图10 是为了维持数值稳定性而添加的常数,如 7.7. AdaDelta算法 - 图11 。接着更新自变量:

    7.7. AdaDelta算法 - 图12

    最后,我们使用

    7.7. AdaDelta算法 - 图13 来记录自变量变化量 7.7. AdaDelta算法 - 图14 按元素平方的指数加权移动平均:

    7.7. AdaDelta算法 - 图15

    可以看到,如不考虑

    7.7. AdaDelta算法 - 图16 的影响,AdaDelta算法与RMSProp算法的不同之处在于使用 7.7. AdaDelta算法 - 图17 来替代超参数 7.7. AdaDelta算法 - 图18

    7.7.2. 从零开始实现

    AdaDelta算法需要对每个自变量维护两个状态变量,即

    7.7. AdaDelta算法 - 图197.7. AdaDelta算法 - 图20 。我们按AdaDelta算法中的公式实现该算法。

    1. In [1]:
    1. %matplotlib inline
    2. import d2lzh as d2l
    3. from mxnet import nd
    4.  
    5. features, labels = d2l.get_data_ch7()
    6.  
    7. def init_adadelta_states():
    8. s_w, s_b = nd.zeros((features.shape[1], 1)), nd.zeros(1)
    9. delta_w, delta_b = nd.zeros((features.shape[1], 1)), nd.zeros(1)
    10. return ((s_w, delta_w), (s_b, delta_b))
    11.  
    12. def adadelta(params, states, hyperparams):
    13. rho, eps = hyperparams['rho'], 1e-5
    14. for p, (s, delta) in zip(params, states):
    15. s[:] = rho * s + (1 - rho) * p.grad.square()
    16. g = ((delta + eps).sqrt() / (s + eps).sqrt()) * p.grad
    17. p[:] -= g
    18. delta[:] = rho * delta + (1 - rho) * g * g

    使用超参数

    7.7. AdaDelta算法 - 图21 来训练模型。

    1. In [2]:
    1. d2l.train_ch7(adadelta, init_adadelta_states(), {'rho': 0.9}, features,
    2. labels)
    1. loss: 0.242859, 0.365652 sec per epoch

    ../_images/chapter_optimization_adadelta_3_1.svg

    7.7.3. 简洁实现

    通过名称为“adadelta”的Trainer实例,我们便可使用Gluon提供的AdaDelta算法。它的超参数可以通过rho来指定。

    1. In [3]:
    1. d2l.train_gluon_ch7('adadelta', {'rho': 0.9}, features, labels)
    1. loss: 0.243492, 0.405834 sec per epoch

    ../_images/chapter_optimization_adadelta_5_1.svg

    7.7.4. 小结

    • AdaDelta算法没有学习率超参数,它通过使用有关自变量更新量平方的指数加权移动平均的项来替代RMSProp算法中的学习率。

    7.7.5. 练习

    • 调节AdaDelta算法中超参数 7.7. AdaDelta算法 - 图24 的值,观察实验结果。

    7.7.6. 参考文献

    [1] Zeiler, M. D. (2012). ADADELTA: an adaptive learning rate method.arXiv preprint arXiv:1212.5701.