加权神经表示的隐式正则化路径
利用随机矩阵理论分析深度神经网络的权重矩阵,并得出神经网络的训练过程本身隐式实现了自我正则化的结论,通过改变批次大小和利用泛化间隙现象,证明了大批次训练导致模型隐含正则化不佳并解释了泛化间隙现象。
Oct, 2018
通过矩阵分解问题的数学建模,探究梯度优化算法所诱导的隐含正则化问题,研究发现规范(norms)不能完全解释矩阵分解问题中的正则化问题,通过实验证明排名(rank)是更有用的解释方式以及有可能解释深度学习中的泛化问题。
May, 2020
该研究论文介绍了一种改进神经网络正则化器的方法,该正则化器不仅能对权重衰减,还能考虑权重尺度偏移对正则化的影响,有效地限制神经网络的内在范数,并优化了对抗强度以提高泛化性能。
Aug, 2020
针对非线性神经网络的回归损失(如平方损失),研究其隐含正则化(即隐含偏差)的特性,虽然已成为一个活跃的研究领域,但迄今为止仍未得到深入探究。本文通过一些证明,表明甚至对于单个ReLU神经元,无法利用原模型参数的任何显式函数来表征隐含正则化特性(尽管我们可以近似表征),对于一层隐藏层的网络而言也存在类似的现象。本研究建议采用比目前更加广泛的框架来理解非线性预测的隐性正则化,并提供了一些线索。
Dec, 2020
采用动力学系统视角和贪心低秩张量搜索方法,我们得出了张量秩作为衡量复杂度和深度神经网络隐式正则化的方法,进而解释了深度学习中的隐式正则化和现实世界数据的性质对泛化的影响。
Feb, 2021
本论文研究了自监督学习的非对比方法,通过构建 DirectPred 理论框架,分析了线性网络的表示学习动态,并通过共轭积的方法提供了一个显式的方差规则机制,提出了一种新的各向同性损失函数,并在 CIFAR-10 和 STL-10 数据集上证明了理论发现的正确性。
Dec, 2022
通过随机矩阵理论,提出了一种名为“Heavy-Tailed Regularization”的正则化技术,此技术优化了神经网络的权重矩阵,使其有更重的尾巴,并提升了网络的泛化能力。对比传统的正则化方法,实验结果证明这种新方法在泛化效果上更优秀。
Apr, 2023
本文研究了使用梯度下降与权重归一化进行训练的经过参数化的模型所具有的内在偏向性,并证明了权重归一化的方法可以在对角线性模型中具有稀疏解的内在偏向性。
May, 2023
本文从套索惩罚和子采样的角度建立它们之间结构和风险的等效关系,通过限制不同的岭正则化系数和子采样比例的路径,证明子采样的二阶统计量和岭回归分析的期望风险是等价的,提供一种基于数据推导的确定等价路径的方法,进一步解决了最近由 Nakkiran 等人提出的关于最优化-调整岭回归系数在数据方面比例上是否具有单调预测风险的问题。
May, 2023