计算深度神经网络正则化路径的多目标延续方法
本文重新审视了使用SGD来训练深度神经网络的选择,通过重新考虑优化权重时所适当的几何方式,提出了一种几何不变,不受权重重放缩影响的Path-SGD方法,并结合与最大范数正则化相关的基于路径的正则化器,使用这种近似的最陡梯度下降方法,以改进SGD和AdaGrad的效果。
Jun, 2015
证明了通过梯度下降(以及正步长)学习多层同质函数时,该算法的梯度流可以有效地强制不同层之间的平方范数差异保持不变,从而自动平衡所有层的大小,由此可以深入研究利用一阶算法来优化学习深度模型的基本方法。
Jun, 2018
研究采用随机梯度下降法训练的神经网络,通过对每一次迭代的训练标签进行独立噪声扰动,得到一个隐式正则化项,从而驱动网络向简单模型发展,并以矩阵感知、一维数据下的两层ReLU网络训练以及单数据点下的两层sigmoid激活网络训练等三个简单场景进行了阐述。
Apr, 2019
该论文介绍了一种新的正则化方法(PER), 通过将激活在概率分布空间中与标准正态分布进行匹配,从而达到正则化的目的。该方法可以用于图像分类任务和语言建模任务。
Feb, 2020
通过矩阵分解问题的数学建模,探究梯度优化算法所诱导的隐含正则化问题,研究发现规范(norms)不能完全解释矩阵分解问题中的正则化问题,通过实验证明排名(rank)是更有用的解释方式以及有可能解释深度学习中的泛化问题。
May, 2020
通过研究隐性正则化的梯度轨迹,借鉴深度线性网络梯度下降隐式正则化向低秩解的偏好性,并提出显式惩罚来模拟这种偏好,从而使单层网络可以达到深度线性网络相同的低秩逼近性能。
Jun, 2023
通过在深度神经网络中引入非光滑正则化项,我们控制过拟合,并在矩阵填充任务中实现更好的性能。我们提出了一个变种的近端梯度法,并研究其收敛性,通过逐步添加非光滑正则化项来改善深度神经网络的性能。通过模拟实验,我们证明了所提算法相对于线性和非线性算法的优越性。
Mar, 2024
本文研究了预训练特征加权所引起的隐式正则化效应。通过导出不同加权矩阵与岭正则化水平之间的等效路径,指出在相同路径下训练的岭估计量在评估边界范数的测试向量时渐近相等。研究结果为高效的交叉验证方法提供了理论基础,并在多个模型和数据集上进行了应用。
Aug, 2024