深度矩阵分解中的隐式正则化
通过使用矩阵因式分解的梯度下降法来优化欠定二次目标函数时,对步长采用合适大小以及初始值足够接近原点进行隐式正则化会使得梯度下降法收敛到最小核范数解,这一结论在实证和理论方面都得到了支持。
May, 2017
本文重新回顾了使用动态系统和Morse函数的不变子空间来解释深度模型(如神经网络)泛化能力的隐式正则化,并提出了一种新的隐式正则化标准以及研究它的通用蓝图,并应用这些技术来解决隐式正则化理论在矩阵分解中的一个猜想。
Jan, 2020
通过矩阵分解问题的数学建模,探究梯度优化算法所诱导的隐含正则化问题,研究发现规范(norms)不能完全解释矩阵分解问题中的正则化问题,通过实验证明排名(rank)是更有用的解释方式以及有可能解释深度学习中的泛化问题。
May, 2020
本文研究用于解决深度学习的隐含偏差问题的梯度下降算法动态收敛性,在线性网络和估计问题上,分析梯度下降中的“有效秩”动态变化,提出了矩阵低秩投影的有效秩,为理解深度学习奠定了基础。
Nov, 2020
通过深度为 2 的矩阵分解及理论和实证证据,我们证明了梯度流(用无穷小初始化)等价于一个简单的启发式秩量化算法,同时对深度大于等于 3 的情况进行了扩展,并证明了深度的优势在于对初始化幅度的弱依赖性,因此这种秩量化更可能在实践中起作用。
Dec, 2020
采用动力学系统视角和贪心低秩张量搜索方法,我们得出了张量秩作为衡量复杂度和深度神经网络隐式正则化的方法,进而解释了深度学习中的隐式正则化和现实世界数据的性质对泛化的影响。
Feb, 2021
本文从动态系统的角度对深度学习中隐藏的正则化进行了理论分析,并研究了等效于一些深度卷积神经网络的分层张量因式分解模型中的隐藏正则化。最终证明了该模型会自动进行低阶张量秩的隐藏正则化,实现与卷积网络相应的局部性隐式正则化。我们基于该理论设计了明确的惩罚局部性的正则化方法,并展示了它在非本地任务上提高现代卷积神经网络性能的能力,这违反了传统智慧认为需要改变结构的观点,凸显出通过理论分析神经网络的隐式正则化来增强其性能的潜力。
Jan, 2022
通过研究隐性正则化的梯度轨迹,借鉴深度线性网络梯度下降隐式正则化向低秩解的偏好性,并提出显式惩罚来模拟这种偏好,从而使单层网络可以达到深度线性网络相同的低秩逼近性能。
Jun, 2023
在学习从线性度量中的深度线性网络时,最小化Hessian矩阵的迹大致相当于最小化相应端到端矩阵参数的Schatten 1-范数,这进而导致更好的概括。
Jun, 2023