关键词normalized gradient descent
搜索结果 - 8
- 对抗性流:对抗攻击的梯度流表征
我们将所谓的快速梯度符号方法及其迭代变体解释为微分包含的明确欧拉离散化方法,并证明了该离散化与相关梯度流的收敛性。我们考虑最大斜率的 p - 曲线的概念,证明了最大斜率的无穷曲线的存在,并通过微分包含导出了另一种特征描述。此外,我们还研究了 - 关于预测有界时间序列时跟踪变化边界的研究
我们考虑一个新的框架,其中一个连续但有界的随机变量具有随时间变化的未观察到的边界,并在有界随机变量的分布的参数上考虑边界。我们引入了扩展对数似然估计,并设计算法通过在线最大似然估计来跟踪边界。由于所得到的优化问题不是凸的,我们利用最近关于凸 - 学习可分数据的两层神经网络的快速收敛
本文探讨了如何在两层神经网络上使用标准化的梯度下降算法,证明了使用标准化梯度下降算法可以实现指数尾数损失函数的快速收敛,并讨论了凸性目标的归纳性及过拟合问题。
- MM利用二阶信息提高统计模型的计算复杂度
通过使用二阶信息的标准化梯度下降法(NormGD)来解决参数估计问题,可以在样本量 n 的对数数量级内收敛,从而实现了达到最终统计半径的最优总体计算复杂度 O (n)。
- 非凸随机优化中重尾的高概率界限
本研究讨论了使用第一阶梯度算法进行的非凸随机优化问题,其中梯度估计可能具有重尾特征,结果表明梯度剪裁,动量和归一化梯度下降的组合可以在高概率下收敛于关键点,特别适用于光滑损失的已知最佳速率,适用于任意光滑度规范,并针对克服该领域二阶光滑损失 - 重新审视归一化梯度下降:快速逃逸鞍点
本文研究了优化问题中经典梯度下降方法的自然改进版,即归一化梯度下降,特别关注连续时间下降过程,发现 NGD 能够快速跳出鞍点,几乎不会收敛于鞍点。研究结果可以应用到全局收敛时间的界定。
- 归一化之力:更快速地逃离鞍点
通过选择合适的参数和注入噪音,我们分析了 Normalized Gradient Descent(NGD)这个非凸优化启发式方法,表明此方法能够逃避鞍点,并且证明了 NGD 收敛到局部最小值,而且 NGD 的收敛速度比 Ge 等人 2015 - 超越凸性:随机拟凸优化
本文研究随机版归一化梯度下降算法,并证明了该算法在优化拥有拟凸和局部 Lipschitz 性质的函数时,能够保证收敛到全局最优解。与标准的随机梯度下降算法不同的是,该算法要求使用最小的小批量大小,以避免梯度爆炸等问题。