有偏差SGD指南
本研究针对带图等情景,探讨Stochastic gradient descent (SGD)中consitent estimator的效用及其相对于unbiased estimator的同等收敛性。实验证明,consistent estimator在strongly convex, convex, and nonconvex目标下均表现良好,这一研究有助于进一步提高SGD的效率并设计大规模图的高效训练算法。
Jul, 2018
本文证明了对于线性可分数据,梯度下降的隐式偏差可以通过最优解的双重优化问题完全描述,从而实现了对一般损失的训练。此外,使用 L2 最大间隔方向的恒定步长可以获得 O(ln(n)/ln(t)) 的收敛速率,而使用适当选择的主动步长时间表,则可以获得对于L2间隔和隐式偏差的 O(1/t) 收敛速率。
Jun, 2019
本文研究深度学习中涉及到隐私保护的问题,探讨了梯度裁剪在保证隐私的前提下防止 SGD 算法陷入局部极小值的作用,并提出了一种基于扰动的新技术用于解决梯度分布不对称问题。
Jun, 2020
分析了带偏差随机梯度方法的复杂性,特别是在非凸函数上的收敛性及更好的速率,探究了偏差大小对达到的准确性和收敛速率的影响,阐述了偏差梯度在分布式学习和无导数优化中的应用广泛性。
Jul, 2020
本研究针对模型学习速率为中等并逐渐降低的情况,研究了SGD和GD在超参数调节中的常见行为,以此试图解决机器学习中的算法偏差问题,并得出了不同方向偏差可能导致最终预测结果差异的结论。
Nov, 2020
本文研究了随机梯度下降和全样本梯度下降在随机凸优化模型中泛化性能的分离问题,发现经典的全样本梯度下降算法在步数相同的情况下会出现过拟合且通常需要更多的步数才能与随机梯度下降算法获得类似的泛化性能。同时本文还探讨了正则化、稳定性和隐含偏差等概念在泛化中的作用。
Feb, 2021
本文研究了边缘稳定性(EoS)中逻辑回归上梯度下降(GD)的收敛和隐式偏差情况,证明任何恒定步长的非单调GD迭代可以在较长时间尺度上最小化逻辑损失,并在最大间隔方向上趋于正无穷,在最大间隔方向的正交补上收敛于最小化强凸势能的固定向量,而指数损失可能导致GD迭代在EoS区域内灾难性发散。
May, 2023
通过此研究,我们展示了样本梯度范数与DP-SGD中使用的梯度估计偏差之间的关系,并提出了Bias-Aware Minimization(BAM)方法,用以降低私有梯度估计器的偏差,我们还提供了对CIFAR-10、CIFAR-100和ImageNet-32数据集上隐私-效用权衡的实证证据。
Aug, 2023
本研究通过非渐进性分析,探讨具有偏倚梯度和自适应步长的随机梯度下降算法,包括时间依赖的偏倚和梯度估计器的均方误差控制,结果表明带偏倚梯度的Adagrad和RMSProp算法收敛速率与无偏情况下的结果相似,实验结果进一步验证了收敛性,并展示了通过适当的超参数调整可以减少偏倚影响的能力。
Feb, 2024
介绍了一种针对非可微模型的新型随机梯度下降(SGD)方法,利用渐进平滑逼近方法提高了渐进平滑逼近的精度,并证明了收敛到原始目标的固定点,在实验中表现出了简单、快速、稳定的特点,并实现了工作归一化方差的数量级降低。
Feb, 2024