Dec, 2012

ADADELTA: 自适应学习率方法

TL;DR提出了一种名为 ADADELTA 的针对梯度下降的每维学习率的新方法,该方法仅使用一阶信息在时间上动态自适应,除了香草随机梯度下降之外几乎没有计算开销,并且不需要手动调整学习率,且与嘈杂的渐变信息、不同的模型架构选择、各种数据形态和超参数的选择都表现出鲁棒性,在 MNIST 数字分类任务上使用单个机器并在分布式群集环境中使用大规模语音数据集展示出与其他方法相比令人期待的结果。