RMSProp

尽管 AdaGrad 的速度变慢了一点，并且从未收敛到全局最优，但是 RMSProp 算法通过仅累积最近迭代（而不是从训练开始以来的所有梯度）的梯度来修正这个问题。它通过在第一步中使用指数衰减来实现（见公式 11-7）。

RMSProp - 图1

他的衰变率β通常设定为 0.9。是的，它又是一个新的超参数，但是这个默认值通常运行良好，所以你可能根本不需要调整它。

正如您所料，TensorFlow 拥有一个RMSPropOptimizer类：

RMSProp - 图2

除了非常简单的问题，这个优化器几乎总是比 AdaGrad 执行得更好。它通常也比动量优化和 Nesterov 加速梯度表现更好。事实上，这是许多研究人员首选的优化算法，直到 Adam 优化出现。