IJCAIOct, 2019
MARTHE: 通过在线超梯度调度学习率
MARTHE: Scheduling the Learning Rate Via Online Hypergradients
Michele Donini, Luca Franceschi, Massimiliano Pontil, Orchid Majumder, Paolo Frasconi
TL;DR本文从超参数优化的角度研究了适应特定任务的学习率进度的拟合问题,并通过介绍超梯度的梯度结构,提出了 MARTHE 算法,它能够使用优化轨迹中的过去信息来模拟未来的行为,从而插值最近的两种技术,从而产生更加稳定、泛化能力更强的学习率进度。