张量分解中的隐式正则化
本文从动态系统的角度对深度学习中隐藏的正则化进行了理论分析,并研究了等效于一些深度卷积神经网络的分层张量因式分解模型中的隐藏正则化。最终证明了该模型会自动进行低阶张量秩的隐藏正则化,实现与卷积网络相应的局部性隐式正则化。我们基于该理论设计了明确的惩罚局部性的正则化方法,并展示了它在非本地任务上提高现代卷积神经网络性能的能力,这违反了传统智慧认为需要改变结构的观点,凸显出通过理论分析神经网络的隐式正则化来增强其性能的潜力。
Jan, 2022
本篇论文探讨了深度矩阵分解在矩阵补全和传感中的梯度下降隐式正则化对低秩解的影响,并发现添加深度会增强对低秩解的倾向,结果表明标准正则化的数学符号语言可能不足以完全涵盖梯度下降隐式正则化的机制。
May, 2019
通过矩阵分解问题的数学建模,探究梯度优化算法所诱导的隐含正则化问题,研究发现规范(norms)不能完全解释矩阵分解问题中的正则化问题,通过实验证明排名(rank)是更有用的解释方式以及有可能解释深度学习中的泛化问题。
May, 2020
通过研究隐性正则化的梯度轨迹,借鉴深度线性网络梯度下降隐式正则化向低秩解的偏好性,并提出显式惩罚来模拟这种偏好,从而使单层网络可以达到深度线性网络相同的低秩逼近性能。
Jun, 2023
通过使用矩阵因式分解的梯度下降法来优化欠定二次目标函数时,对步长采用合适大小以及初始值足够接近原点进行隐式正则化会使得梯度下降法收敛到最小核范数解,这一结论在实证和理论方面都得到了支持。
May, 2017
矩阵分解模型在理解超参数模型的隐含偏差方面,作为一个重要的测试平台已被广泛研究。本文系统地研究了矩阵分解模型在解决矩阵补全问题时的隐含正则化,通过实验证明观测数据的连接性在隐含偏差中起着关键作用,其随着观察次数的增加由低核范数转变为低秩解。我们发现损失函数引导训练轨迹从低秩解演化到更高秩解的过程在损失函数的损失面内有一系列内在的不变流行,并基于此给出了训练轨迹的理论刻画,进一步建立了最小核范数的条件,与实验结果相吻合,同时为保证最小秩解提供了动力学刻画条件。我们的工作揭示了矩阵分解模型中数据连接性、训练动力学和隐含正则化之间复杂的相互作用。
May, 2024
通过深度为 2 的矩阵分解及理论和实证证据,我们证明了梯度流(用无穷小初始化)等价于一个简单的启发式秩量化算法,同时对深度大于等于 3 的情况进行了扩展,并证明了深度的优势在于对初始化幅度的弱依赖性,因此这种秩量化更可能在实践中起作用。
Dec, 2020
通过对带有非线性激活函数的神经网络在矩阵感知问题中的隐性正则化现象的研究,我们引入了一种名为 “光谱神经网络(SNN)” 的网络架构,该架构在矩阵学习问题上具有更好的可解释性,通过数学保证和实证研究验证了其有效性。我们相信 SNN 架构在广泛的矩阵学习场景中具有潜在的适用性。
Feb, 2024
本文研究用于解决深度学习的隐含偏差问题的梯度下降算法动态收敛性,在线性网络和估计问题上,分析梯度下降中的 “有效秩” 动态变化,提出了矩阵低秩投影的有效秩,为理解深度学习奠定了基础。
Nov, 2020