Feb, 2024

逻辑损失的大步梯度下降:损失的非单调性提高了优化效率

TL;DR使用常数步长的梯度下降算法应用于线性可分数据的逻辑回归,证明了在初始震荡阶段后,算法能够在a步的时间内实现O(1/(aT))的收敛速率,从而在总步数为T的情况下,通过积极地调整步长可以达到O(1/T^2)的加速损失,无需使用动量或变化的步长调度器。