基于零特征值的损失函数训练深度神经网络
本文通过一种去除特征值分解的方法,解决了深度学习框架中的一个困境:如何在网络中显式编码已知的几何概念,并演示了此方法在多种实际情况下的鲁棒性和性能优越性。
Apr, 2020
介绍了一种在深度网络中利用特征向量的数值稳定且可微分方法,其可处理大矩阵且不需要拆分,并展示了其在 ZCA 白化和 PCA 去噪方面的鲁棒性优于标准的 Eigendecomposition 和 Power Iteration 方法。
Jun, 2019
基于低秩逼近特性的新型优化框架,通过学习前 L 个奇异值和奇异函数的正确顺序来提升所学函数的正交性,在计算物理和机器学习领域展示了提出的优化框架的有效性。
Feb, 2024
研究神经网络学习使用不同激活函数的函数类的问题,探讨了最小的假设条件,该假设条件相应于 Gram 矩阵的特征值衰减。通过足够强的多项式特征值衰减,他们获得了所有相关参数的多项式时间算法,这是对 ReLU 网络的第一个以纯分布假设为基础的支持多项式时间算法的假设。特征值衰减是实际数据集上的观察结果。
Aug, 2017
该研究探讨了训练深度神经网络及其与网络参数之间的复杂动力学关系。通过研究我们发现,训练网络往往沿着单一方向进行训练,被称为漂移模式。通过损失函数的二次势模型,我们解释了这种漂移模式,并提出其向潜在值的指数级缓慢衰减。我们揭示了 Hessian 特征向量与网络权重之间的相关性,该关系取决于特征值的大小,使我们能够识别网络内的参数方向。此外,通过奇异值分解,我们对权重矩阵进行了分解,以实用的方式识别 Hessian 内的关键方向,同时考虑其大小和曲率。此外,我们还发现了各层最大的 Hessian 特征值与整个网络之间的相似性,特别是更大的特征值更集中在深层。最后,基于我们的发现,我们探索了解决神经网络在学习新任务时遗忘之前任务知识的挑战,通过应用我们的发现,我们提出了一种有效的策略来缓解这种遗忘,这个策略可以适用于不同规模的网络,包括更大的架构。
Nov, 2023
使用物理知识,提出了基于物理指导的专家混合体(PG-MoE)模型,通过将复杂的高维本征向量预测任务分解为若干简单子任务,提高了计算效率,应用于量子力学中的薛定谔方程求解,相较于传统深度学习方法具有更好的可推广性和更小的网络规模。
Feb, 2022
我们介绍了一种叫做 eigenpruning 的方法,它从 LLM 中移除特定任务中的奇异值,以提高其性能。这种方法受到解释性方法的启发,旨在自动找到解决特定任务的模型的子网络。在我们的测试中,经过修剪的模型在性能上远远优于原始模型,而仅需进行最少的计算来修剪权重矩阵。对于一个小的合成任务,即整数乘法,Phi-2 模型可以将测试集的准确率从 13.75%提高到 97.50%。有趣的是,这些结果似乎表明存在一种非常有效地解决任务的计算路径,但原始模型未使用。最后,我们计划在我们的工作的最终版本中开源我们的实现。
Apr, 2024
论文研究了一个新的、广义的针对函数空间的目标函数,应用于机器学习中核函数和数据分布定义的积分算子的主特征向量的训练。该方法通过近似高斯牛顿矩阵来实现线性化的深度神经网络在现代图像分类数据集上的扩展,能够提供对多元函数的准确逼近。
Apr, 2022
本研究提出了一种名为 SVD training 的神经网络压缩方法,通过正交性正则化和奇异值剪枝等技术,可以在训练过程中显式地实现降低矩阵秩的目标,从而更有效地减少 DNN 算法在低性能设备上的计算负担。
Apr, 2020