本文介绍了一种将常规优化算法转化为在线学习动态的方法,以解决具有多个局部极小值的给定训练目标的最小化,通过在线学习算法的遗憾界来获得隐式偏差率,并比较了梯度下降、镜像下降和最陡下降这三种不同的优化算法的隐式偏差率。
May, 2023
本文证明了对于线性可分数据,梯度下降的隐式偏差可以通过最优解的双重优化问题完全描述,从而实现了对一般损失的训练。此外,使用 L2 最大间隔方向的恒定步长可以获得 O (ln (n)/ln (t)) 的收敛速率,而使用适当选择的主动步长时间表,则可以获得对于 L2 间隔和隐式偏差的 O (1/t) 收敛速率。
Jun, 2019
本文研究隐式偏差和隐式正则化对随机凸优化中随机梯度下降的影响,提供了一种简单构造来排除控制 SGD 泛化能力的分布独立的隐式正则化器的存在,并且证明了分布依赖的一般类隐式正则化器不能解释泛化的学习问题,说明了仅仅通过隐式正则化的特性来全面解释算法的泛化性能存在重大困难。
Mar, 2020
本文使用镜像下降方法来解决深度神经网络优化算法中的隐含正则化问题。
Jun, 2023
本研究发现,在无正则化的逻辑回归问题、线性可分数据集上,使用均匀线性预测器的梯度下降法会收敛于最大间隔解的方向。收敛速度缓慢,方法适用于其他单调递减的损失函数、多类别问题和某些受限情况下的深层网络训练。此研究还可帮助理解模型的隐式正则化和其他优化方法。
Oct, 2017
本文研究了浅层线性神经网络的平方误差损失景观。研究表明,对于相应的优化问题,其具有良好的几何性质,没有虚假局部极值,每个鞍点的 Hessian 矩阵至少有一个负特征值。这意味着在每个鞍点处,都有一个负的曲率方向可以用来优化目标函数值,因此很多局部搜索算法,如梯度下降,可以证明具有全局收敛性。
May, 2018
我们研究了鲁棒经验风险最小化(鲁棒 ERM)中的优化隐性偏差及其与鲁棒泛化的关系。在面对带有线性模型的对抗干扰的分类设置下,我们研究了应该为给定的扰动集合理想地应用什么类型的正则化来改善(鲁棒)泛化。然后,我们表明鲁棒 ERM 中的优化隐性偏差可以显著影响模型的鲁棒性,并确定了两种方式:通过优化算法或架构。我们通过合成数据的模拟验证了我们的预测,并实验性地研究了深度神经网络中优化隐性偏差在鲁棒 ERM 中的重要性。
Jun, 2024
本文研究了边缘稳定性(EoS)中逻辑回归上梯度下降(GD)的收敛和隐式偏差情况,证明任何恒定步长的非单调 GD 迭代可以在较长时间尺度上最小化逻辑损失,并在最大间隔方向上趋于正无穷,在最大间隔方向的正交补上收敛于最小化强凸势能的固定向量,而指数损失可能导致 GD 迭代在 EoS 区域内灾难性发散。
本文讨论梯度下降算法中超参数模型中的隐含偏差问题,将超参数模型下的训练轨迹视为不同目标函数上的镜像下降,对该现象在 commuting parametrization 条件下进行了表征,证明了任何 commuting parametrization 的梯度流都等价于相关 Legendre 函数的连续镜像下降。
Jul, 2022
通过 Bregman 分歧诱导的镜像下降是双重黎曼流形上的自然梯度下降算法,使用对数似然损失的镜像下降在指数族参数估计中渐近地达到了经典的 Cramer-Rao 下限,指数族对应的流形的自然梯度下降可以通过镜像下降实现一阶方法。
Oct, 2013