Shake-Shake 正则化

May, 2017

Shake-Shake regularization

Xavier Gastaldi

TL;DR本文介绍了一种替换标准分支求和的随机仿射组合方法，用于改善深度学习中过拟合问题，结合掷骰子正则化可提高CIFAR-10和CIFAR-100测试准确度，对于跳跃连接或批量归一化的架构也有鼓舞人心的结果，具有广泛的应用前景。

Abstract

The method introduced in this paper aims at helping deep learning practitioners faced with an overfit problem. The idea is to replace, in a multi

发现论文，激发创造

PatchShuffle 正则化

本文提出一个名为 PatchShuffle 的新的正则化方法，可以帮助卷积神经网络（CNN）模型在数据较少的情况下改进其泛化能力，同时改善其对噪声和局部变化的鲁棒性。通过在本地补丁中混洗像素，PatchShuffle 生成具有内部无序补丁的图像和特征映射，从而创建丰富的本地变化。本文实验证明，采用 PatchShuffle 可以作为各种训练正则化技术（例如权值衰减，模型集成和 Dropout）的有益补充，并提高 CNN 模型的泛化能力。

Jul, 2017

深度残差学习中的ShakeDrop正则化

本文提出了一种新的正则化方法ShakeDrop以缓解ResNet等深度神经网络结构的过拟合问题，并引入训练稳定器保持训练的稳定性，ShakeDrop比Shake-Shake方法更为有效，并可适用于ResNet、Wide ResNet和PyramidNet，本文还通过实验证明了ShakeDrop的良好性能。

Feb, 2018

权重衰减正则化的三种机制

三个 optimization algorithms (SGD、Adam 和 K-FAC) 使用 weight decay 有三种 regularization 效应：(1) 增加 effective learning rate；(2) regularizing input-output Jacobian norm；(3) 减小 second-order optimization 的 effective damping coefficient。

Oct, 2018

深度网络中的动力学和泛化理论 III

本研究通过分析深度神经网络的梯度下降技术实现，提出了控制网络复杂度的隐含规范化方法，并将其归纳为梯度下降算法的内在偏差，说明这种方法可以解决深度学习中过拟合的问题。

Mar, 2019

Shakeout: 一种新的正则化深度神经网络训练方法

本研究介绍一种新的正则化训练方法：Shakeout，通过随机增强或反转每个单元对下一层的影响，Shakeout相比于传统的Dropout在图像分类MNIST，CIFAR-10和ImageNet的实验中表现更好，可以有效避免过拟合，产生更稀疏的权重，以及减少深度神经网络训练过程的不稳定性。

Apr, 2019

由 Ornstein-Uhlenbeck 过程驱动的深度神经网络的隐式正则化

研究采用随机梯度下降法训练的神经网络，通过对每一次迭代的训练标签进行独立噪声扰动，得到一个隐式正则化项，从而驱动网络向简单模型发展，并以矩阵感知、一维数据下的两层ReLU网络训练以及单数据点下的两层sigmoid激活网络训练等三个简单场景进行了阐述。

Apr, 2019

正则化深层网络时时间很重要：权重衰减和数据增强影响早期学习动态，在收敛附近影响不大

研究表明，对于深度神经网络的正则化应在其初期而非后期进行，且应当重视学习过程中的瞬态行为而非渐进行为。

May, 2019

通过权重尺度不变正则化提高神经网络的泛化性能和鲁棒性

该研究论文介绍了一种改进神经网络正则化器的方法，该正则化器不仅能对权重衰减，还能考虑权重尺度偏移对正则化的影响，有效地限制神经网络的内在范数，并优化了对抗强度以提高泛化性能。

Aug, 2020

Weight Compander：一种用于正则化的简单权值重新参数化方法

介绍了一种名为权重压缩器的新方法，用于重新参数化深度神经网络的每个权重，从而提高其泛化能力；该方法通过限制权重大小来隐式减少过拟合，同时强制权重远离零，以促进更多特征的提取并增加权重冗余，从而使网络对测试数据的统计差异不那么敏感。

Jun, 2023

频域下的批量归一化

本文介绍了一种新的在频域归一化特征图的有效方法 - 频谱批量归一化（SBN），通过实验证明该方法可以避免特征图在初始化时和整个训练过程中的爆炸问题，使得深度神经网络的表现得到了显著提高。

Jun, 2023