关于 Dropout 和核范数正则化
本文中,我们利用半无限对偶及最小规范化,将使用修正线性单元的两层神经网络的训练准确表述为单一凸程序,其变量数量与训练样本数量和隐藏层神经元数量呈多项式关系,并证明使用标准权重衰减进行修正线性单元网络训练的等效于带块 $l_1$ 惩罚的凸模型。此外,我们还证明了某些标准卷积线性网络等效于半定程序,可以在多项式大小的离散傅里叶特征空间中简化为带 $l_1$ 正则化的线性模型。
Feb, 2020
单层线性网络中,DropBlock 引入了谱 k-support 正则化,促使解具有低秩和等范数的因子。这个全局极小值可以用闭合形式计算。若在最后一层应用 Dropout,某些假设下此结果可扩展到 Dropout 策略的一般类和深度非线性网络中,并用经常使用的网络结构实验验证了理论结论和假设。
Oct, 2019
研究采用随机梯度下降法训练的神经网络,通过对每一次迭代的训练标签进行独立噪声扰动,得到一个隐式正则化项,从而驱动网络向简单模型发展,并以矩阵感知、一维数据下的两层 ReLU 网络训练以及单数据点下的两层 sigmoid 激活网络训练等三个简单场景进行了阐述。
Apr, 2019
该研究论文探讨了 dropout 作为一种正则化技术在线性分类问题中的应用。通过比较不同正则化技术的表现,研究人员得出一些结论并分析了 dropout 的优势所在。
Dec, 2014
研究了 Dropout 在不同机器学习问题中提供的容量控制能力。在深度学习中,Dropout 的数据依赖正则化直接控制了基本深度神经网络类的 Rademacher 复杂度,并在矩阵完成和训练深度神经网络中给出了具体的泛化误差界限。在真实数据集,包括 MovieLens,MNIST 和 Fashion-MNIST 上评估了理论发现。
Mar, 2020
本文研究了快速 Dropout(一种用于常规线性模型和神经网络的正则化方法)的后向传递启发式视角,证明了它实现了自适应、参数之间的二次正则化项,对欠拟合情况下的大权重进行奖励,对过度自信预测进行惩罚,并在未正则化的训练损失极小值处消失。该正则化项的导数完全基于训练误差信号,因此没有全局权重吸引器,这可以改善 RNN 的性能。作者基于四个音乐数据集,证实了该假设。
Nov, 2013
本文研究了 dropout 正则化方法的两种作用:修改预期训练目标的明显作用和训练更新的随机性所导致的额外的隐含作用。通过对实验的控制和分析,提出了可以替换 dropout 的简化分析正则化器。
Feb, 2020
该研究论文通过将 dropout 解释为一种正则化方法,建立了它与 L2 正则化和 AdaGrad 的联系。进一步地,该方法可被应用于半监督学习,旨在提高模型性能,并在文本分类任务中得到了成功应用。
Jul, 2013
本文通过将 dropout 看作一种可计算潜在变量的方法来理解其 Tractability,提出了 (approximate) expectation-linear dropout 神经网络,进一步分析了训练和推理中的推断 gap,并证明了通过规范化 dropout 培训目标可以有效地控制推断 gap。实验结果表明减少推断 Gap 可以提高图像分类性能。
Sep, 2016
利用深度学习技术,通过惩罚函数的雅可比核范数,提出了一种简单高效而准确的规则化方法,使雅可比核范数可以应用于高维深度学习问题,并在去噪和表示学习等领域进行了实证研究。
May, 2024