AdamP：针对尺度不变权重下动量优化器的减缓减速方法

ICLRJun, 2020

AdamP：针对尺度不变权重下动量优化器的减缓减速方法

AdamP: Slowing Down the Slowdown for Momentum Optimizers on Scale-invariant Weights

Byeongho Heo, Sanghyuk Chun, Seong Joon Oh, Dongyoon Han, Sangdoo Yun...

TL;DR本文介绍了正则化技术在深度学习中的重要性，以及在使用冲量梯度下降优化器时可能出现的问题和解决方法。作者提出了 SGDP 和 AdamP 两种解决方案，通过去除每次优化步骤中的径向分量或增加规范的方向，来维护深度神经网络的性能，并验证了这些方法对 13 个基准测试任务的实验结果。

Abstract

normalization techniques are a boon for modern deep learning. They let weights converge more quickly with often better generalization performances. It has been argued that the normalization-induced scale invarian

deep learning normalization techniques gradient descent optimizer momentum-based gd model performances

发现论文，激发创造

使用尺度不变架构强化神经网络训练

本文提出了通过修改网络结构，使其缩放不变，并使用 SGD 和权重衰减进行训练的通用方法，并证明了此方法不仅可以实现稳健的训练，还可以节省内存。作者还设计了一种名为 SIBERT 的缩放不变的 BERT 版本，其性能可与使用 Adam 等自适应方法训练的 BERT 相媲美。

Feb, 2022

动量算法改进归一化随机梯度下降

本研究提出使用 momentum 相对于 normalized SGD 来解决 non-convex issues，若 objectives 带有有限的第二导数，采用带的动量公式提高了收敛速度，且适用于大规模任务如 ResNet-50 和 BERT pretraining。

Feb, 2020

旋转优化器：简单而稳健的深度神经网络训练

本文研究深度神经网络的训练动态，提出旋转变量优化器，通过移除传递相应收敛期可达到与原始变量优化器类似的性能，降低了对学习率热身的需求，并改善了对网络归一化不足的优化。

May, 2023

非光滑非凸优化中的随机放缩和动量

通过在每个时间点对更新进行指数分布随机标量缩放的方式，我们提出的方法对于高度不规则的、非凸非光滑的损失函数在优化神经网络训练中表现出最优的收敛保证。这个结果是通过将在线凸优化算法转化为非凸优化算法的一般框架自然得出的。

May, 2024

自适应惯性：解离自适应学习率和动量的影响

通过研究神经网络中的优化算法，提出了一个名为 “自适应惯性” 的新方法，能够更好地训练神经网络并提高泛化性能。

Jun, 2020

尺度归一化

研究表明，保持等距性 /isometry 可以有效加速深度神经网络的训练，包括确定性和标度归一化方法。结果表明在学习开始时保持等距性很重要，保持等距性可以加速学习。

Apr, 2016

MultiAdam：面向多尺度物理信息神经网络的参数无关缩放优化器

本文讨论了采用 Physics-informed Neural Networks 方法求解偏微分方程时遇到的挑战，提出了 MultiAdam 优化器，通过大量实验测试表明，MultiAdam 在预测精度上相较于已有算法有 1-2 个数量级的提升。

Jun, 2023

深度网络中的对称不变优化

本文提出了两种基于对称不变梯度的权重更新方式，使用这些方式进行学习可以提高测试性能而不损失权重更新的计算效率。在 MNIST 数据集上，我们的实验证据表明这些更新有效，并且我们还展示了在图像分割问题上采用这些权重更新方法的训练结果。

Nov, 2015

动量加速对在线学习的影响

研究了动量随机梯度法在常数步长和慢适应区域的收敛速度和均方误差性能，结果表明动量方法相当于具有重新缩放（更大）步长值的标准随机梯度法，重新缩放的大小由动量参数的值确定。分析适用于一般的强凸和光滑风险函数，而不限于二次风险，发现动量构建在确定性优化问题中的优点并不一定适用于小常数步长的自适应在线设置中，以使根据持续的梯度噪声进行连续适应和学习。模拟结果表明，动量和标准随机梯度方法在非可微和非凸问题中也是等价的。

Mar, 2016

Path-SGD：深度神经网络中的路径归一化优化

本文重新审视了使用 SGD 来训练深度神经网络的选择，通过重新考虑优化权重时所适当的几何方式，提出了一种几何不变，不受权重重放缩影响的 Path-SGD 方法，并结合与最大范数正则化相关的基于路径的正则化器，使用这种近似的最陡梯度下降方法，以改进 SGD 和 AdaGrad 的效果。

Jun, 2015