Feb, 2024

逻辑损失的大步梯度下降:损失的非单调性提高了优化效率

TL;DR使用常数步长的梯度下降算法应用于线性可分数据的逻辑回归,证明了在初始震荡阶段后,算法能够在 a 步的时间内实现 O (1/(aT)) 的收敛速率,从而在总步数为 T 的情况下,通过积极地调整步长可以达到 O (1/T^2) 的加速损失,无需使用动量或变化的步长调度器。