Shake-Shake 正则化
本文提出一个名为 PatchShuffle 的新的正则化方法,可以帮助卷积神经网络(CNN)模型在数据较少的情况下改进其泛化能力,同时改善其对噪声和局部变化的鲁棒性。通过在本地补丁中混洗像素,PatchShuffle 生成具有内部无序补丁的图像和特征映射,从而创建丰富的本地变化。本文实验证明,采用 PatchShuffle 可以作为各种训练正则化技术(例如权值衰减,模型集成和 Dropout)的有益补充,并提高 CNN 模型的泛化能力。
Jul, 2017
本文提出了一种新的正则化方法ShakeDrop以缓解ResNet等深度神经网络结构的过拟合问题,并引入训练稳定器保持训练的稳定性,ShakeDrop比Shake-Shake方法更为有效,并可适用于ResNet、Wide ResNet和PyramidNet,本文还通过实验证明了ShakeDrop的良好性能。
Feb, 2018
三个 optimization algorithms (SGD、Adam 和 K-FAC) 使用 weight decay 有三种 regularization 效应:(1) 增加 effective learning rate;(2) regularizing input-output Jacobian norm;(3) 减小 second-order optimization 的 effective damping coefficient。
Oct, 2018
本研究通过分析深度神经网络的梯度下降技术实现,提出了控制网络复杂度的隐含规范化方法,并将其归纳为梯度下降算法的内在偏差,说明这种方法可以解决深度学习中过拟合的问题。
Mar, 2019
本研究介绍一种新的正则化训练方法:Shakeout,通过随机增强或反转每个单元对下一层的影响,Shakeout相比于传统的Dropout在图像分类MNIST,CIFAR-10和ImageNet的实验中表现更好,可以有效避免过拟合,产生更稀疏的权重,以及减少深度神经网络训练过程的不稳定性。
Apr, 2019
研究采用随机梯度下降法训练的神经网络,通过对每一次迭代的训练标签进行独立噪声扰动,得到一个隐式正则化项,从而驱动网络向简单模型发展,并以矩阵感知、一维数据下的两层ReLU网络训练以及单数据点下的两层sigmoid激活网络训练等三个简单场景进行了阐述。
Apr, 2019
研究表明,对于深度神经网络的正则化应在其初期而非后期进行,且应当重视学习过程中的瞬态行为而非渐进行为。
May, 2019
该研究论文介绍了一种改进神经网络正则化器的方法,该正则化器不仅能对权重衰减,还能考虑权重尺度偏移对正则化的影响,有效地限制神经网络的内在范数,并优化了对抗强度以提高泛化性能。
Aug, 2020
介绍了一种名为权重压缩器的新方法,用于重新参数化深度神经网络的每个权重,从而提高其泛化能力;该方法通过限制权重大小来隐式减少过拟合,同时强制权重远离零,以促进更多特征的提取并增加权重冗余,从而使网络对测试数据的统计差异不那么敏感。
Jun, 2023
本文介绍了一种新的在频域归一化特征图的有效方法 - 频谱批量归一化(SBN),通过实验证明该方法可以避免特征图在初始化时和整个训练过程中的爆炸问题,使得深度神经网络的表现得到了显著提高。
Jun, 2023