May, 2023

在稳定边缘处进行逻辑回归的梯度下降隐含偏差

TL;DR本文研究了边缘稳定性(EoS)中逻辑回归上梯度下降(GD)的收敛和隐式偏差情况,证明任何恒定步长的非单调 GD 迭代可以在较长时间尺度上最小化逻辑损失,并在最大间隔方向上趋于正无穷,在最大间隔方向的正交补上收敛于最小化强凸势能的固定向量,而指数损失可能导致 GD 迭代在 EoS 区域内灾难性发散。