通过高效 SVD 参数化稳定深度神经网络梯度
探究 Tensor Singular Value Decomposition (t-SVD) 理论上对于 Neural Networks with t-product layers (t-NNs) 的影响,研究发现使用 exact transformed low-rank parameterization 的 t-NNs 能够提高其对于 adversarial generalization 的性能,并且即使 t-NNs 很少有完全 transformed low-rank weights,也可以通过 gradient flow (GF) 的 adversarial training 得到类似的效果,表明 transformed low-rank parameterization 在一定条件下可以提高 t-NNs 的鲁棒泛化性能。
Mar, 2023
本文提出了一种新的神经网络结构,旨在避免消失/爆炸梯度问题,既解决了该问题,又取得了比许多其他结构更好的性能表现,它的核心思想是通过滤波和正交加和来实现非线性激活层之间的结合,从而防止梯度消失或爆炸,并成功应用于超过 50k 层和 10k 个时间步长的神经网络任务。
Oct, 2022
本研究提出了一种名为 SVD training 的神经网络压缩方法,通过正交性正则化和奇异值剪枝等技术,可以在训练过程中显式地实现降低矩阵秩的目标,从而更有效地减少 DNN 算法在低性能设备上的计算负担。
Apr, 2020
递归神经网络在学习长期记忆方面存在困难,而最近基于状态空间模型的 RNN 取得的成功挑战了我们的理论理解。我们的分析揭示了元素逐个递归设计模式和谨慎参数设置在缓解这种效应方面的重要性,这一特征存在于状态空间模型及其他架构中。总体而言,我们的观点为解释 RNN 梯度学习中的一些困难以及为什么有些架构表现更好提供了新的解释。
May, 2024
我们通过 Givens 旋转提出了一种标准循环神经网络的重新参数化方法,以在保持范数的情况下更新线性变换,并使用绝对值函数作为逐元素非线性,以在整个网络上保持反向传播信号的范数。实验证明,该重新参数化方法在保持相同算法复杂度的情况下,优于具有正交初始值的标准循环神经网络和长短期记忆网络。
Dec, 2016
我们提出了一种简单而新颖的参数化线性映射形式,称为 Ternary SVD(TSVD)。与传统的奇异值分解(SVD)不同,TSVD 限制了 SVD 中的 U 和 V 矩阵为三值矩阵形式(±1,0)。在计算 U(・)和 V(・)时,TSVD 仅需要加法指令,而无需昂贵的乘法指令。我们提供了直接转换算法和训练转换算法的过渡算法(如后训练量化和量化感知训练)。此外,我们理论上分析了直接转换算法的收敛性。在实验证明,TSVD 可以在各种类型的网络和任务中实现最先进的网络压缩性能,包括当前的基线模型,如 ConvNext、Swim、BERT 和大型语言模型 OPT。
Aug, 2023
本文提出一种利用 SVD 和 Taylor expansion 的方法,用于求解 close eigenvalues 时计算 eigenvectors 的梯度,从而提高 integrating eigendecomposition into deep networks 的准确性。
Apr, 2021
基于低秩逼近特性的新型优化框架,通过学习前 L 个奇异值和奇异函数的正确顺序来提升所学函数的正交性,在计算物理和机器学习领域展示了提出的优化框架的有效性。
Feb, 2024
我们提出了一种加权奇异值分解压缩 Transformer 的语言模型的方法,该方法考虑了神经网络参数的不平等重要性,并解决了没有封闭形式解决方案的非凸优化问题。实验结果表明,相较于传统的 SVD 方法,在压缩 Transformer 的语言模型时,我们的方法可以获得更好的效果。
Nov, 2022