分离数据梯度下降的隐式偏差
对采用严格单调尾部的损失函数(如对数损失)在可分离数据集上利用梯度下降时的隐式偏差进行了详细研究,证明了对于一大类超多项式尾部损失,梯度下降迭代可以收敛到任意深度的线性网络的L2最大边距解。
Mar, 2018
本文探讨了采用SGD 进行机器学习的收敛性问题,特别是在采用线性可分数据及单调函数损失函数的情况下,证明了 SGD 在固定非零学习率的条件下可以收敛至零损失,对于分类问题中的单调函数损失函数(例如对数损失),每次迭代权重向量趋向于$L_2$最大裕度向量,且损失以$O(1/t)$的速率收敛。
Jun, 2018
本文研究了AdaGrad在可分线性分类问题上的隐式偏差,并证明其收敛于一个可以被描述为具有与硬SVM问题相同可行集的二次优化问题的方向。此外,还讨论了不同的超参数选择对AdaGrad的影响,这增进了我们对为什么自适应方法在实践中似乎没有梯度下降优良的泛化能力的更深入理解。
Jun, 2019
本文证明了对于线性可分数据,梯度下降的隐式偏差可以通过最优解的双重优化问题完全描述,从而实现了对一般损失的训练。此外,使用 L2 最大间隔方向的恒定步长可以获得 O(ln(n)/ln(t)) 的收敛速率,而使用适当选择的主动步长时间表,则可以获得对于L2间隔和隐式偏差的 O(1/t) 收敛速率。
Jun, 2019
研究了梯度下降算法在同质神经网络中的隐式正则化,重点研究了 optimizing the logistic loss or cross-entropy loss of any homogeneous model,探讨了规范化边缘的平滑版本,形成了一个关于边缘最大化的优化问题,给出了算法的渐进性能, 并讨论了通过训练提高模型鲁棒性的潜在好处。
Jun, 2019
分析了具有同质性激活函数的两层神经网络在无限宽的情况下的训练和泛化行为,并表明在存在低维结构的情况下,梯度流的极限可以完全表征为某些函数空间中的最大间隔分类器,并且具有强的泛化边界,在实践中符合两层神经网络的行为,并证明了其隐式偏差的统计优点。
Feb, 2020
本论文研究了机器学习中隐含的偏差及其对应的正则化解,并且根据理论证明我们使用的指数型损失函数的正则化效果,可达到最大保边缘的方向,相应的其他损失函数可能会导致收敛于边缘较差的方向。
Jun, 2020
本文研究了边缘稳定性(EoS)中逻辑回归上梯度下降(GD)的收敛和隐式偏差情况,证明任何恒定步长的非单调GD迭代可以在较长时间尺度上最小化逻辑损失,并在最大间隔方向上趋于正无穷,在最大间隔方向的正交补上收敛于最小化强凸势能的固定向量,而指数损失可能导致GD迭代在EoS区域内灾难性发散。
May, 2023
本文证明了在使用可变学习率运行梯度下降时,对于逻辑回归目标函数,损失 f(x) ≤ 1.1·f(x*) + ε,其中误差 ε 按迭代次数指数下降,并按任意固定解决方案 x* 条目大小的多项式下降。该文还将这些思想应用于稀疏逻辑回归,在那里它们导致了稀疏误差交换的指数改进。
Jun, 2023
本研究解决了多类分类中隐性偏差理论的不足,特别是在现有研究主要集中于二类分类的情况下。作者通过引入排列等变性和相对边际(PERM)损失的框架,扩展了指数尾性特性到多类分类,并将相关结果应用于此领域。研究结果显示,PERM框架有效地填补了二类与多类分类之间的理论空白。
Nov, 2024