本篇论文探讨了深度矩阵分解在矩阵补全和传感中的梯度下降隐式正则化对低秩解的影响,并发现添加深度会增强对低秩解的倾向,结果表明标准正则化的数学符号语言可能不足以完全涵盖梯度下降隐式正则化的机制。
May, 2019
采用动力学系统视角和贪心低秩张量搜索方法,我们得出了张量秩作为衡量复杂度和深度神经网络隐式正则化的方法,进而解释了深度学习中的隐式正则化和现实世界数据的性质对泛化的影响。
Feb, 2021
通过使用矩阵因式分解的梯度下降法来优化欠定二次目标函数时,对步长采用合适大小以及初始值足够接近原点进行隐式正则化会使得梯度下降法收敛到最小核范数解,这一结论在实证和理论方面都得到了支持。
May, 2017
本文从动态系统的角度对深度学习中隐藏的正则化进行了理论分析,并研究了等效于一些深度卷积神经网络的分层张量因式分解模型中的隐藏正则化。最终证明了该模型会自动进行低阶张量秩的隐藏正则化,实现与卷积网络相应的局部性隐式正则化。我们基于该理论设计了明确的惩罚局部性的正则化方法,并展示了它在非本地任务上提高现代卷积神经网络性能的能力,这违反了传统智慧认为需要改变结构的观点,凸显出通过理论分析神经网络的隐式正则化来增强其性能的潜力。
Jan, 2022
通过深度为 2 的矩阵分解及理论和实证证据,我们证明了梯度流(用无穷小初始化)等价于一个简单的启发式秩量化算法,同时对深度大于等于 3 的情况进行了扩展,并证明了深度的优势在于对初始化幅度的弱依赖性,因此这种秩量化更可能在实践中起作用。
Dec, 2020
研究深度学习在张量因式分解中的隐式正则化效应,通过数值实验证明了这种隐式正则化可促进获得更准确的估计和更好的收敛特性。
Jul, 2022
通过研究隐性正则化的梯度轨迹,借鉴深度线性网络梯度下降隐式正则化向低秩解的偏好性,并提出显式惩罚来模拟这种偏好,从而使单层网络可以达到深度线性网络相同的低秩逼近性能。
Jun, 2023
本研究探讨深度学习中的泛化现象,并发现隐式正则化通过优化方法在深度学习模型的泛化和成功方面起着关键作用,我们进一步研究了不同的复杂度度量,以确保泛化并解释了优化算法如何隐含地正则化这些复杂度度量,为了更好地研究神经网络中的不变量,我们提出了复杂度度量和优化算法,并在许多学习任务上进行了评估。
Sep, 2017
矩阵分解模型在理解超参数模型的隐含偏差方面,作为一个重要的测试平台已被广泛研究。本文系统地研究了矩阵分解模型在解决矩阵补全问题时的隐含正则化,通过实验证明观测数据的连接性在隐含偏差中起着关键作用,其随着观察次数的增加由低核范数转变为低秩解。我们发现损失函数引导训练轨迹从低秩解演化到更高秩解的过程在损失函数的损失面内有一系列内在的不变流行,并基于此给出了训练轨迹的理论刻画,进一步建立了最小核范数的条件,与实验结果相吻合,同时为保证最小秩解提供了动力学刻画条件。我们的工作揭示了矩阵分解模型中数据连接性、训练动力学和隐含正则化之间复杂的相互作用。
May, 2024
在学习从线性度量中的深度线性网络时,最小化 Hessian 矩阵的迹大致相当于最小化相应端到端矩阵参数的 Schatten 1 - 范数,这进而导致更好的概括。