深度学习中的隐式正则化可能无法通过规范解释
通过使用矩阵因式分解的梯度下降法来优化欠定二次目标函数时,对步长采用合适大小以及初始值足够接近原点进行隐式正则化会使得梯度下降法收敛到最小核范数解,这一结论在实证和理论方面都得到了支持。
May, 2017
本研究探讨深度学习中的泛化现象,并发现隐式正则化通过优化方法在深度学习模型的泛化和成功方面起着关键作用,我们进一步研究了不同的复杂度度量,以确保泛化并解释了优化算法如何隐含地正则化这些复杂度度量,为了更好地研究神经网络中的不变量,我们提出了复杂度度量和优化算法,并在许多学习任务上进行了评估。
Sep, 2017
本篇论文探讨了深度矩阵分解在矩阵补全和传感中的梯度下降隐式正则化对低秩解的影响,并发现添加深度会增强对低秩解的倾向,结果表明标准正则化的数学符号语言可能不足以完全涵盖梯度下降隐式正则化的机制。
May, 2019
本文重新回顾了使用动态系统和Morse函数的不变子空间来解释深度模型(如神经网络)泛化能力的隐式正则化,并提出了一种新的隐式正则化标准以及研究它的通用蓝图,并应用这些技术来解决隐式正则化理论在矩阵分解中的一个猜想。
Jan, 2020
通过深度为 2 的矩阵分解及理论和实证证据,我们证明了梯度流(用无穷小初始化)等价于一个简单的启发式秩量化算法,同时对深度大于等于 3 的情况进行了扩展,并证明了深度的优势在于对初始化幅度的弱依赖性,因此这种秩量化更可能在实践中起作用。
Dec, 2020
采用动力学系统视角和贪心低秩张量搜索方法,我们得出了张量秩作为衡量复杂度和深度神经网络隐式正则化的方法,进而解释了深度学习中的隐式正则化和现实世界数据的性质对泛化的影响。
Feb, 2021
本文从动态系统的角度对深度学习中隐藏的正则化进行了理论分析,并研究了等效于一些深度卷积神经网络的分层张量因式分解模型中的隐藏正则化。最终证明了该模型会自动进行低阶张量秩的隐藏正则化,实现与卷积网络相应的局部性隐式正则化。我们基于该理论设计了明确的惩罚局部性的正则化方法,并展示了它在非本地任务上提高现代卷积神经网络性能的能力,这违反了传统智慧认为需要改变结构的观点,凸显出通过理论分析神经网络的隐式正则化来增强其性能的潜力。
Jan, 2022
通过研究隐性正则化的梯度轨迹,借鉴深度线性网络梯度下降隐式正则化向低秩解的偏好性,并提出显式惩罚来模拟这种偏好,从而使单层网络可以达到深度线性网络相同的低秩逼近性能。
Jun, 2023
在学习从线性度量中的深度线性网络时,最小化Hessian矩阵的迹大致相当于最小化相应端到端矩阵参数的Schatten 1-范数,这进而导致更好的概括。
Jun, 2023