旋转优化器：简单而稳健的深度神经网络训练

May, 2023

旋转优化器：简单而稳健的深度神经网络训练

Rotational Optimizers: Simple & Robust DNN Training

Atli Kosson, Bettina Messmer, Martin Jaggi

TL;DR本文研究深度神经网络的训练动态，提出旋转变量优化器，通过移除传递相应收敛期可达到与原始变量优化器类似的性能，降低了对学习率热身的需求，并改善了对网络归一化不足的优化。

Abstract

The training dynamics of modern deep neural networks depend on complex interactions between the learning rate, weight decay, initialization, and other →

deep neural networks hyperparameters optimizers rotational variants training dynamics

发现论文，激发创造

学习优化器的训练动态调查

深度学习中优化的关键问题是通过学习优化器来加速优化过程，但其稳定性、泛化性仍存在问题。本研究通过分析网络架构对优化轨迹和参数更新分布的影响，研究并对比手动设计和学习优化器的优缺点，提出了关键见解。

Dec, 2023

自适应惯性：解离自适应学习率和动量的影响

通过研究神经网络中的优化算法，提出了一个名为 “自适应惯性” 的新方法，能够更好地训练神经网络并提高泛化性能。

Jun, 2020

AdamP：针对尺度不变权重下动量优化器的减缓减速方法

本文介绍了正则化技术在深度学习中的重要性，以及在使用冲量梯度下降优化器时可能出现的问题和解决方法。作者提出了 SGDP 和 AdamP 两种解决方案，通过去除每次优化步骤中的径向分量或增加规范的方向，来维护深度神经网络的性能，并验证了这些方法对 13 个基准测试任务的实验结果。

Jun, 2020

带有规范化层学习的球形透视

本文介绍了一个用几何角度来研究具有 Normalization Layers 的神经网络优化的球形框架，首先得出了 Adam 的第一个有效学习率表达式，并表明在存在 NLs 的情况下，仅执行 SGD 实际上等效于限制在单位超球面上的 Adam 变体，最后通过实验证实了之前 Adam 的变体对优化过程的影响。

Jun, 2020

通过动态等向性在深度学习中复苏 Sigmoid 函数：理论与实践

本文采用自由概率理论的强大工具来分析深度神经网络的输入输出雅可比矩阵的奇异值分布，研究了深度、权重初始化和非线性性之间的关系，发现深度为 ReLU 网络不能实现动态等距，而深度为 Sigmodial 网络只能通过正交权重初始化来实现等距，且正常初始化的深度 Sigmodial 网络学习效率远优于 ReLU 网络。

Nov, 2017

SGD 的极限动力学：修改的损失，相空间振荡和反常扩散

研究 SGD 训练的深度神经网络在性能收敛后的步长限制动态，揭示了优化超参数、梯度噪声结构及训练结束时 Hessian 矩阵之间错综复杂的相互作用，通过统计物理学的视角解释这种异常扩散现象并在 ImageNet 数据集的 ResNet-18 模型上得到了实证验证。

Jul, 2021

神经力学：深度学习动态中的对称性和破缺守恒定律

通过内在对称性的理论框架，使用有限差分法实现了在实践中使用的有限学习率的精确积分表达式来描述在任何数据集上通过深度学习训练出的当代网络体系结构的各种参数组合的学习动力学。

Dec, 2020

Adafactor：自适应学习率与亚线性内存成本

该论文提出了一种基于行和列之和的移动平均数的方法，用于估计神经网络权重矩阵的参数，并解决了自适应方法在更新时产生的过大更新的问题。该方法能够在很少的辅助存储空间中达到与 Adam 默认规则相当的结果。

Apr, 2018

旋转不变逼近与学习的深度神经网络

本研究基于树形结构探讨如何设计深度神经网络用于实现径向函数，以实现在任意高维欧几里得空间内旋转不变性的近乎最优函数逼近。结果显示，深度网络在逼近精度和学习能力方面远优于仅具有一个隐藏层的浅层神经网络，并证明了对于学习径向函数，深度网络可以实现近乎最优的学习速率，而浅层网络却不能。因此，这项研究说明深度在神经网络设计中的必要性，以实现旋转不变的目标函数。

Apr, 2019

深度网络中的对称不变优化

本文提出了两种基于对称不变梯度的权重更新方式，使用这些方式进行学习可以提高测试性能而不损失权重更新的计算效率。在 MNIST 数据集上，我们的实验证据表明这些更新有效，并且我们还展示了在图像分割问题上采用这些权重更新方法的训练结果。

Nov, 2015