通过奇异向量正交正则化和奇异值稀疏化学习低秩深度神经网络
通过动态参数排除,我们提出了一种用于卷积神经网络压缩的高效训练方法,使用奇异值分解(SVD)对低秩卷积滤波器和密集权重矩阵进行建模,并通过端到端的反向传播训练 SVD 因子。我们的方法在各种现代卷积神经网络和计算机视觉数据集上进行评估,并展示了它在分类性能上的适用性。实验证明,该方法能够在保持或提高分类性能的同时实现显著的存储节省。
Jan, 2024
该研究通过分析神经网络在训练过程中的权重的奇异值分解 (SVD) 来探究神经网络的学习动力学。我们的调查发现,每个多维权重的 SVD 表示中存在一个正交基,在训练过程中保持稳定。基于此,我们介绍了一种新的训练方法,即利用神经网络的内在正交性的 Orthogonality-Informed Adaptive Low-Rank (OIALR) 训练。OIALR 可以无缝地集成到现有的训练工作流中,且准确度损失最小,通过在各种数据集和经典网络架构上进行基准测试也得以证明。通过适当的超参数调整,OIALR 可以超越传统的训练设置,包括最先进的模型。
Jan, 2024
介绍了一种在保证模型精度的情况下,同时降低深度学习中推理和训练成本,并通过基于神经网络条件数的模型稳健性表明低秩矩阵分解(low-rank matrix factorizations)容易导致模型鲁棒性的问题,提出了一种基于鲁棒低秩矩阵训练的算法,通过施加近似正交约束,保证了低秩表示与近似完整的模型之间精度。通过实验证明降低深度学习模型中推理和训练成本的同时,提高了模型的鲁棒性。
Jun, 2023
我们提出了一种加权奇异值分解压缩 Transformer 的语言模型的方法,该方法考虑了神经网络参数的不平等重要性,并解决了没有封闭形式解决方案的非凸优化问题。实验结果表明,相较于传统的 SVD 方法,在压缩 Transformer 的语言模型时,我们的方法可以获得更好的效果。
Nov, 2022
基于低秩逼近特性的新型优化框架,通过学习前 L 个奇异值和奇异函数的正确顺序来提升所学函数的正交性,在计算物理和机器学习领域展示了提出的优化框架的有效性。
Feb, 2024
设计高效的低秩模型,通过一种广义的 Ordered Dropout 方法将低秩结构内嵌到训练过程中,实现对深度神经网络进行可训练的低秩层插入,从而提取出足够小的模型,保持模型性能并允许在不同性能设备上进行准确性和延迟的权衡。
Aug, 2023
提出了一种基于 Fisher 信息的 SVD 压缩方法(FWSVD),它可以通过加权计算参数的重要性来降低模型压缩中优化目标与模型任务的目标不匹配的问题,该方法适用于任务特定模型并且可以取得比其他紧凑模型策略更好的性能和更高的压缩率。
Jun, 2022
探究 Tensor Singular Value Decomposition (t-SVD) 理论上对于 Neural Networks with t-product layers (t-NNs) 的影响,研究发现使用 exact transformed low-rank parameterization 的 t-NNs 能够提高其对于 adversarial generalization 的性能,并且即使 t-NNs 很少有完全 transformed low-rank weights,也可以通过 gradient flow (GF) 的 adversarial training 得到类似的效果,表明 transformed low-rank parameterization 在一定条件下可以提高 t-NNs 的鲁棒泛化性能。
Mar, 2023
本文提出了正交深度神经网络 (OrthDNNs) 的算法,将其与最近研究的光谱正则化深度学习方法联系起来,证明了神经网络在实践中具有局部等距性和不变性,并提出基于等奇异值的正交权重矩阵的方法和 Bounded Batch Normalization 来提高深度神经网络的泛化性能。
May, 2019
本文提出了一种基于截断的异性低秩正则化方法,通过使用功率方法逼近奇异值分解以提高计算效率,相比于传统核范数正则化方法,实验结果表明所提出的方法在矩阵补全领域有更快的速度和更高的准确率。
Dec, 2015