有偏差 SGD 指南
本研究针对带图等情景,探讨 Stochastic gradient descent (SGD) 中 consitent estimator 的效用及其相对于 unbiased estimator 的同等收敛性。实验证明,consistent estimator 在 strongly convex, convex, and nonconvex 目标下均表现良好,这一研究有助于进一步提高 SGD 的效率并设计大规模图的高效训练算法。
Jul, 2018
分析了带偏差随机梯度方法的复杂性,特别是在非凸函数上的收敛性及更好的速率,探究了偏差大小对达到的准确性和收敛速率的影响,阐述了偏差梯度在分布式学习和无导数优化中的应用广泛性。
Jul, 2020
本研究通过非渐进性分析,探讨具有偏倚梯度和自适应步长的随机梯度下降算法,包括时间依赖的偏倚和梯度估计器的均方误差控制,结果表明带偏倚梯度的 Adagrad 和 RMSProp 算法收敛速率与无偏情况下的结果相似,实验结果进一步验证了收敛性,并展示了通过适当的超参数调整可以减少偏倚影响的能力。
Feb, 2024
本研究提出了一种有偏随机梯度下降算法(BSGD),并在不同结构假设下研究了偏差 - 方差权衡。我们确定了 BSGD 的样本复杂度,包括强凸、凸和弱凸目标,在平滑和非平滑条件下,并为凸 CSO 目标提供相匹配的下界。通过进行广泛的数值实验,我们证明了 BSGD 在鲁棒逻辑回归,模型无关元学习(MAML)和工具变量回归(IV)中的性能。
Feb, 2020
机器学习系统通常通过利用数据中的不希望的特征获得偏差,对不同的亚群体造成不同程度的精确度影响。本文探讨了在教师 - 学生模型中,模拟不同数据亚群体的高斯混合模型,偏差如何演化的问题。我们提供了这种设置下线性分类器随机梯度下降动力学的解析描述,该描述在高维度下被证明是准确的。值得注意的是,我们的分析揭示了亚群体的不同属性在不同时间尺度上如何影响偏差,展示了分类器在训练过程中偏好的转变。将我们的发现应用于公平性和鲁棒性,我们阐述了异质数据和虚假特征如何生成和放大偏差的时间与方式。通过在合成数据集和真实数据集(包括 CIFAR10,MNIST 和 CelebA)上训练更深层次的网络来经验性地验证我们的结果。
May, 2024
本文研究隐式偏差和隐式正则化对随机凸优化中随机梯度下降的影响,提供了一种简单构造来排除控制 SGD 泛化能力的分布独立的隐式正则化器的存在,并且证明了分布依赖的一般类隐式正则化器不能解释泛化的学习问题,说明了仅仅通过隐式正则化的特性来全面解释算法的泛化性能存在重大困难。
Mar, 2020
本文研究证明了随机梯度下降在非凸学习中,无需统一梯度有界性假设也能达到最优收敛率的情况,并在一定程度上对于一般非凸目标函数和梯度主导的目标函数实现了几乎必然收敛。特别地,在方差为零的情况下可以得到线性收敛。
Feb, 2019
本文研究了计算误差对有偏随机梯度下降算法的收敛速率的影响,并使用随机二次约束和线性矩阵不等式来推导有偏随机梯度下降算法的收敛界限。此外,通过该线性矩阵不等式条件开发了一种序列最小化方法,用于分析步长选择,收敛速度,优化精度和梯度不准确性之间的复杂权衡,并提供了该线性矩阵不等式的可行点,并得到了在各个损失函数假设下有偏随机梯度下降算法收敛特性的理论公式。
Nov, 2017
本研究探讨了非凸非光滑目标函数中常数步长随机梯度下降算法的渐近正态结果,结果表明只要非凸和非光滑目标函数满足耗散性特性,SGD 算法的迭代平均值就会渐近正态分布,该结果可用于构建对于使用 SGD 算法的非凸问题的置信区间。同时,本文通过对其与马尔可夫链的关系进行了详细地分析,还对目标函数的临界点与其期望值之间的偏差进行了表征。
Jun, 2020