通过高效 SVD 参数化稳定深度神经网络梯度

Mar, 2018

通过高效 SVD 参数化稳定深度神经网络梯度

Stabilizing Gradients for Deep Neural Networks via Efficient SVD Parameterization

Jiong Zhang, Qi Lei, Inderjit S. Dhillon

TL;DR本文提出了一种基于奇异值分解（SVD）的转移矩阵参数化方法，通过显式控制奇异值来解决在训练中发生的梯度消失和梯度爆炸问题，该方法在实验中表现出了更快的收敛速度和更好的泛化性能，特别是在捕捉长程依赖关系方面的表现较好。

Abstract

Vanishing and exploding gradients are two of the main obstacles in training deep neural networks, especially in capturing long range dependencies in →

vanishing gradients exploding gradients recurrent neural networks svd parameterization long range dependencies

发现论文，激发创造

通过转换低秩参数化可以为张量神经网络带来鲁棒泛化能力的提升

探究 Tensor Singular Value Decomposition (t-SVD) 理论上对于 Neural Networks with t-product layers (t-NNs) 的影响，研究发现使用 exact transformed low-rank parameterization 的 t-NNs 能够提高其对于 adversarial generalization 的性能，并且即使 t-NNs 很少有完全 transformed low-rank weights，也可以通过 gradient flow (GF) 的 adversarial training 得到类似的效果，表明 transformed low-rank parameterization 在一定条件下可以提高 t-NNs 的鲁棒泛化性能。

Mar, 2023

随机正交加性滤波器：深度神经网络梯度消失 / 爆炸问题的解决方案

本文提出了一种新的神经网络结构，旨在避免消失／爆炸梯度问题，既解决了该问题，又取得了比许多其他结构更好的性能表现，它的核心思想是通过滤波和正交加和来实现非线性激活层之间的结合，从而防止梯度消失或爆炸，并成功应用于超过 50k 层和 10k 个时间步长的神经网络任务。

Oct, 2022

通过奇异向量正交正则化和奇异值稀疏化学习低秩深度神经网络

本研究提出了一种名为 SVD training 的神经网络压缩方法，通过正交性正则化和奇异值剪枝等技术，可以在训练过程中显式地实现降低矩阵秩的目标，从而更有效地减少 DNN 算法在低性能设备上的计算负担。

Apr, 2020

循环神经网络：梯度消失和梯度爆炸并非问题的终点

递归神经网络在学习长期记忆方面存在困难，而最近基于状态空间模型的 RNN 取得的成功挑战了我们的理论理解。我们的分析揭示了元素逐个递归设计模式和谨慎参数设置在缓解这种效应方面的重要性，这一特征存在于状态空间模型及其他架构中。总体而言，我们的观点为解释 RNN 梯度学习中的一些困难以及为什么有些架构表现更好提供了新的解释。

May, 2024

DizzyRNN：对循环神经网络重新参数化以保持范数的反向传播

我们通过 Givens 旋转提出了一种标准循环神经网络的重新参数化方法，以在保持范数的情况下更新线性变换，并使用绝对值函数作为逐元素非线性，以在整个网络上保持反向传播信号的范数。实验证明，该重新参数化方法在保持相同算法复杂度的情况下，优于具有正交初始值的标准循环神经网络和长短期记忆网络。

Dec, 2016

三元奇异值分解作为线性映射中更好的参数化形式

我们提出了一种简单而新颖的参数化线性映射形式，称为 Ternary SVD（TSVD）。与传统的奇异值分解（SVD）不同，TSVD 限制了 SVD 中的 U 和 V 矩阵为三值矩阵形式（±1，0）。在计算 U（・）和 V（・）时，TSVD 仅需要加法指令，而无需昂贵的乘法指令。我们提供了直接转换算法和训练转换算法的过渡算法（如后训练量化和量化感知训练）。此外，我们理论上分析了直接转换算法的收敛性。在实验证明，TSVD 可以在各种类型的网络和任务中实现最先进的网络压缩性能，包括当前的基线模型，如 ConvNext、Swim、BERT 和大型语言模型 OPT。

Aug, 2023

鲁棒可微 SVD

本文提出一种利用 SVD 和 Taylor expansion 的方法，用于求解 close eigenvalues 时计算 eigenvectors 的梯度，从而提高 integrating eigendecomposition into deep networks 的准确性。

Apr, 2021

通过嵌套低秩逼近的神经网络进行运算员 SVD

基于低秩逼近特性的新型优化框架，通过学习前 L 个奇异值和奇异函数的正确顺序来提升所学函数的正交性，在计算物理和机器学习领域展示了提出的优化框架的有效性。

Feb, 2024

语言模型加权低秩估计的数值优化

我们提出了一种加权奇异值分解压缩 Transformer 的语言模型的方法，该方法考虑了神经网络参数的不平等重要性，并解决了没有封闭形式解决方案的非凸优化问题。实验结果表明，相较于传统的 SVD 方法，在压缩 Transformer 的语言模型时，我们的方法可以获得更好的效果。

Nov, 2022

随机张量列奇异值分解

该研究针对层次张量表示，研究了随机矩阵分解方法在高阶张量中的推广，并提出分析了一种用于计算张量拓扑结构的随机算法。

Oct, 2017