梯度抛光：通过动态控制雅可比矩阵来改进梯度下降

Dec, 2023

梯度抛光：通过动态控制雅可比矩阵来改进梯度下降

Gradient Flossing: Improving Gradient Descent through Dynamic Control of Jacobians

Rainer Engelken

TL;DR通过调节 Lyapunov 指数来稳定梯度并提高循环神经网络 (RNN) 训练的有效性，减缓梯度爆炸和梯度消失问题。

Abstract

Training recurrent neural networks (RNNs) remains a challenge due to the instability of gradients across long time horizons, which can lead to exploding and vanishing gradients. Recent research has linked these problems to the values of →

recurrent neural networks gradient instability lyapunov exponents gradient flossing rnn training

发现论文，激发创造

循环神经网络训练的困难性

从分析、几何和动力系统的角度探讨了递归神经网络的梯度消失和梯度爆炸问题，提出了一种简单而有效的梯度剪裁策略和软约束以解决这些问题。

Nov, 2012

稳定性边界训练的原因 —— 分层雅可比对齐

用指数欧拉求解器训练神经网络，以准确近似真实的梯度下降动态系统，证明了 Hessian 矩阵的锐度增加是由于网络的逐层 Jacobian 矩阵对齐导致的，而对齐程度与数据集大小呈幂律关系，相关性系数在 0.74 到 0.98 之间。

May, 2024

DizzyRNN：对循环神经网络重新参数化以保持范数的反向传播

我们通过 Givens 旋转提出了一种标准循环神经网络的重新参数化方法，以在保持范数的情况下更新线性变换，并使用绝对值函数作为逐元素非线性，以在整个网络上保持反向传播信号的范数。实验证明，该重新参数化方法在保持相同算法复杂度的情况下，优于具有正交初始值的标准循环神经网络和长短期记忆网络。

Dec, 2016

通过预训练稳定 RNN 梯度

通过本研究，我们证明预训练网络以实现本地稳定性在复杂结构的网络中是有效的，并提出了一种称为本地稳定条件（LSC）的理论，它能最小化对数据和参数分布的假设。我们的实验结果表明，通过预训练满足 LSC 的前馈和递归网络通常能够提高最终性能。这项研究为实现任意复杂度的网络的稳定性提供了一种方法，该方法可以在大型增强数据集的预训练之前作为附加步骤，也可以作为在分析上找到稳定的初始状态的替代方法。

Aug, 2023

LSTM 和 GRU 的动态同构和平均场理论

本研究使用平均场理论探究了 LSTMs 和 GRUs 中的信号传播，通过优化初始化超参数，开发出了一种新的初始化方案，解决了训练不稳定性问题，从而在多个序列任务上实现了成功的训练，并且在泛化能力上也有积极的影响。

Jan, 2019

关于正交性和学习具有长期依赖性的递归网络

本文探讨了针对深度神经网络和循环神经网络中的梯度消失或梯度爆炸问题，使用正交矩阵作为约束条件以保持梯度范数，并且提出了一种使用矩阵分解和参数化策略的方法以控制反向传播期间所导致的扩张性。通过分析，本文发现硬正交矩阵约束会对收敛速度和模型性能产生负面影响。

Jan, 2017

反馈梯度下降：使用正交性进行高效稳定的深度神经网络优化

本文提出了一种名为 “反馈梯度下降（FGD）” 的新方法，该方法基于在 Stiefel 流形的切空间上连续动力系统的 Euler 离散化，同时高效性和稳定性皆优于现有最先进方法，在大量图像分类实验中表现卓越。

May, 2022

自归一化流

本研究提出了自正则化流的概念，通过使用每一层中的学习近似反演，将昂贵的项替换为其梯度的自我正则化流，实现了流架构的培训，同时提供了高效的采样方法。实验表明，这些模型具有显著的稳定性，并优于在计算中限制函数的模型。

Nov, 2020

控制混沌：在递归神经网络的训练中强制执行动力学不变量

运用遍历理论引入机器学习的新型训练方式，强制实现系统中的动力学不变量，以提高在有限数据情况下对混沌动力学系统的长期预测能力，用回声状态网络体系结构进行演示，并以 Lorenz1996 混沌动力学系统和光谱拟地转模型为测试案例，取得了丰硕成果。

Apr, 2023

递归神经网络的梯度下降的收敛性：非渐近分析

我们分析了在有监督学习环境下使用梯度下降法训练的递归神经网络在动态系统中的表现，并证明了在没有大量过参数化的情况下，梯度下降法可以实现最优性。我们深入的非渐近分析 (i) 以序列长度 $T$、样本大小 $n$ 和环境维度 $d$ 为条件给出了网络大小 $m$ 和迭代复杂性 $ au$ 的精确界限，(ii) 显示了动态系统中长期依赖对收敛性和以激活函数的李普希茨连续性界限所刻画的网络宽度界限的显著影响，该界限依赖于激活函数的李普希茨连续性。值得注意的是，这个分析揭示了一个适当初始化的使用 $n$ 个样本进行训练的递归神经网络可以在网络大小 $m$ 的低次对数尺度下实现最优性。这与之前的工作形成鲜明对比，前者需要 $m$ 对 $n$ 的高阶多项式依赖来建立强正则条件。我们的结果基于对递归神经网络能够逼近和学习的动态系统类的明确描述，通过约束范数的传输映射，并且通过建立隐藏状态相对于可学习参数的局部平滑性属性来实现。

Feb, 2024