深度网络真的需要权重衰减和丢弃吗？

Feb, 2018

深度网络真的需要权重衰减和丢弃吗？

Do deep nets really need weight decay and dropout?

Alex Hernández-García, Peter König

TL;DR通过实验研究发现，即使不采取常见的正则化技术，通过引入足够的数据扩增，可以实现深度神经网络在目标识别上的高准确性

Abstract

The impressive success of modern deep neural networks on computer vision tasks has been achieved through models of very large capacity compared to the number of available training examples. This overparameterization

deep neural networks regularization techniques overparameterization object recognition data augmentation

发现论文，激发创造

数据增强代替显式正则化

通过研究比较权值衰减、随机失活和数据增强等正则化技术在深度学习中的作用，提出了数据增强对于提高深度学习泛化性能的显著贡献。因此，建议不要使用权值衰减和随机失活，而要更加关注数据增强和其他归纳偏差来优化神经网络。

Jun, 2018

正则化深层网络时时间很重要：权重衰减和数据增强影响早期学习动态，在收敛附近影响不大

研究表明，对于深度神经网络的正则化应在其初期而非后期进行，且应当重视学习过程中的瞬态行为而非渐进行为。

May, 2019

卷积神经网络上数据增强的进一步优势

本文研究数据增强在卷积神经网络中的隐式规则效应，与显式正则化技术（如权重衰减和 Dropout）相比，数据增强能更易于适应不同的网络结构和训练数据。通过对不同网络架构和训练数据量的消融研究，我们揭示了数据增强的优势，这是长期被忽视的问题。

Jun, 2019

现代深度学习中为什么我们需要权重衰减？

从 ResNets 到 LLMs 的统一视角，权重衰减不是一个显式正则化器，而是以期望的方式改变训练动态。

Oct, 2023

正则化和数据增强对类别的影响

研究表明，现有的数据增广和权重衰减等正则化技术会导致模型在某些类别上性能下降，从而证明需要研究不带类别偏差的新型正则化技术。

Apr, 2022

基于正则化的深度神经网络结构中不相关参数修剪

本研究提出了一种基于正则化技术实现学习稀疏神经拓扑结构的方法，包括对非相关权重标定、压缩优化以及迭代式意义下的参数消除。在图像分类与自然语言生成任务中进行测试，并通过数据指标达到与或优于竞争对手等表现。

Apr, 2022

深度学习小数据的研究

通过不同的深度学习算法以及数据集，我们发现在数据集有限的情况下，模型的复杂度是一个至关重要的因素，我们的研究表明，与过去文献不同的是，在一些配置下，使用低复杂度的卷积神经网络可以达到或超过现有的极限水平。此外，数据扩充也可以大幅提高性能，并且在数据量有限的情况下，dropout 仍然表现出良好的正则化效果。

Mar, 2020

使用 Dropout 正则化从嘈杂标签中学习深度网络

该篇论文提出了一种纠正深度神经网络中标签不准确的技术：通过增加一个噪声模型的 softmax 层，采用端到端的随机梯度下降来优化网络以及噪声模型，借助 dropout 正则化防止噪声模型过于简单。在 CIFAR-10 和 MNIST 数据集上的数值实验显示，该 dropout 技术优于最先进的方法。

May, 2017

Dropout: 显式形式和容量控制

研究了 Dropout 在不同机器学习问题中提供的容量控制能力。在深度学习中，Dropout 的数据依赖正则化直接控制了基本深度神经网络类的 Rademacher 复杂度，并在矩阵完成和训练深度神经网络中给出了具体的泛化误差界限。在真实数据集，包括 MovieLens，MNIST 和 Fashion-MNIST 上评估了理论发现。

Mar, 2020

结构化丢弃降低 Transformer 深度

本文介绍了一种新的结构化 dropout 形式 ——LayerDrop，该形式可在训练过程中实现正则化效果，在推理时允许有效的剪枝。作者通过实验证明了该方法对机器翻译、语言模型、文本摘要、问答和语言理解等基准测试的提升，并提出使用该方法可以得到更高质量的类 BERT 模型。

Sep, 2019