- 分布式优化中的量化规避鞍点
分布式非凸优化的研究中,我们发现量化过程可以用于避免收敛到鞍点,通过提出一种随机量化方案,证明其可以有效地避开鞍点并确保收敛到分布式非凸优化中的二阶稳定点,实验证实了这一方法的有效性,并通过对基准数据集上的分布式优化和学习问题进行了数值实验 - 深度均质神经网络的早期方向收敛及小初始化
该论文研究了使用小的初始值训练深层均匀神经网络时产生的梯度流动力学。该研究表明,在训练的早期阶段,神经网络的权重保持较小的范数,并且在神经关联函数的 Karush-Kuhn-Tucker (KKT) 点附近大致收敛于相同方向。此外,在平方损 - 应对随机鞍点优化中的无界梯度问题
研究用于找到凸凹函数鞍点的随机一阶方法的性能。我们提出了一种简单有效的正则化技术,稳定迭代并提供有意义的性能保证,即使域和梯度噪声与迭代的大小成线性关系(可能是无界的)。此外,我们还将算法应用于强化学习中的特定问题,在无偏扩展的平均奖励 M - 两次齐次神经网络中初始参数微小趋向与马鞍点的方向收敛
本文研究了初始接近原点的两均勻神經網絡的梯度流動力學,對於方塊和邏輯損失,會有足夠長的時間在原點的附近,使神經網絡的權重大約收斂於量化神經網絡輸出和相應標籤在訓練數據集上相關性的 Karush-Kuhn-Tucker(KKT)點;方塊損失下 - 延迟下的极小极大优化
本文旨在研究标准最小 - 最大优化算法的性能,特别是在出现延迟梯度更新时。研究结果表明,在合适的技术假设下,梯度下降 - 上升和延迟更新的额外梯度算法仍然保证收敛到凸 - 凹和强凸 - 强凹的鞍点。
- 理解预测编码作为自适应信任域方法
本文提出了一种关于预测编码的深度学习算法,将其解释为一种与误差反向传播不同的自适应信任域算法,并在浅层线性模型和深度网络实验中验证了该算法可以更快地逃离鞍点。
- 具有单神经元层的深度线性网络的全局收敛分析
本文介绍了深度线性网络的非局部收敛分析,特别是考虑具有一个神经元层的深度线性网络,其收敛点在梯度流下产生的任意起点轨迹上,包括收敛到鞍点或原点之一的路径,本文通过扩展 Eftekhari 的工作,以可证明地标识稳定秩集和全局最小化收敛集来实 - ICLR使用恒定大学习率的 SGD 可收敛于局部最大值
本文研究了随机梯度下降(SGD)算法的全局最优性,在探究了之前研究的局限性之后,发现在一些情况下,SGD 可能表现出奇怪且不可取的行为。作者通过构建高维度的优化问题及数据分布,证明了 SGD 在大多数情况下会收敛到局部最大值,逃离鞍点所需时 - ICLR随机动量法快速逃脱鞍点
本研究探讨了随机动量梯度下降(stochastic momentum)算法在深度神经网络训练中的作用,提出了其改进了随机梯度下降算法以更快地逃离鞍点并找到更快的二阶稳定点的结论。理论分析表明,$eta$ 应该接近 1,这与实验结果一致。
- 随机梯度下降在非凸问题中的几乎必然收敛
本文针对随机梯度下降算法在非凸问题中的收敛性进行轨迹分析,首先证明了在广泛的步长策略范围内,SGD 生成的迭代序列保持有界并以概率 1 收敛,随后证明了 SGD 避开了严格的鞍点 / 流形的概率是 1,最后证明了算法在采用 Theta (1 - IJCAI重球算法总能逃离鞍点
该论文证明了非凸优化算法及随机初始化方法的重要性,并且探讨了这些算法是否能够避免马鞍点问题。该研究的结论是:使用随机初始化的非凸重球算法能够成功地避免马鞍点问题。
- 深度网络中的权重空间对称性导致排列鞍点出现,在损失景观中通过等损谷相连
该研究利用深度神经网络计算的几何方法,探讨网络层之间的置换对全局极小化及鞍点问题的影响及其数学意义。
- 非凸随机梯度下降逃离鞍点的尖锐分析
本文将通过对随机梯度下降进行深入分析,证明当目标函数满足梯度 Lipschitz、Hessian-Lipschitz 和发散噪声假设时,SGD 能够在 O(ε^ -3.5)次随机梯度计算中逃离鞍点并找到(ε,O(ε^ 0.5))- 近似二阶 - ICLR针对 ReLU 网络的局部最优性有效测试和逃脱鞍点
本文提供一种基于多面几何的算法,可在 ReLu 网络的非可导点检查局部最优性并逃离马鞍点。
- 约束优化中逃离鞍点
本研究研究了非凸优化中的鞍点问题,提出了一个通用的框架,该框架可在多项式时间内以失配系数 $\rho<1$ 的速度收敛到问题的二阶稳定点。此外,还将研究结果扩展到了随机情形下,以更好地适应实际问题。
- ICML抵御拜占庭容错分布式学习的鞍点攻击
该研究探讨了在 Byzantine 设置下使用鞍点来最小化非凸损失函数的鲁棒分布式学习算法,提出了一种名为 ByzantinePGD 的算法来逃脱鞍点并收敛到真实局部最小值,通过三种鲁棒梯度估计器的性能特征,论证了它们在低维和高维时的近最优 - 重新审视归一化梯度下降:快速逃逸鞍点
本文研究了优化问题中经典梯度下降方法的自然改进版,即归一化梯度下降,特别关注连续时间下降过程,发现 NGD 能够快速跳出鞍点,几乎不会收敛于鞍点。研究结果可以应用到全局收敛时间的界定。
- 快速非凸优化的随机三次正则化
本文提出了一个随机变体的经典算法 -- 立方正则化牛顿方法。该算法可以有效地避免鞍点问题,并在仅需要 $\mathcal {\tilde {O}}(\epsilon^{-3.5})$ 个随机梯度和随机海森向量乘积评估的情况下,为一般光滑的非 - 逃离近乎线性时间的鞍点的一阶随机算法
本文提供了一种新的噪声加入技术的视角,即将噪声添加到一阶信息中可以帮助从 Hessian 矩阵中提取负曲率,并通过分析一个简单的一阶过程提供了此视角的正式推理,然后提出了一种基于此技术和现有算法的一阶随机算法,实现了以几乎线性的时间复杂度( - 一阶方法几乎总是避免鞍点
本研究表明,几乎所有初始化的一阶方法都可以避免鞍点问题,并且这种算法可以通过动态系统视角来研究,通过合适实例化的 Stable Manifold Theorem 进行全局稳定性分析。因此,除了初始化外,无需访问二阶导数信息或随机性即可证明避