深度网络真的需要权重衰减和丢弃吗?
通过研究比较权值衰减、随机失活和数据增强等正则化技术在深度学习中的作用,提出了数据增强对于提高深度学习泛化性能的显著贡献。因此,建议不要使用权值衰减和随机失活,而要更加关注数据增强和其他归纳偏差来优化神经网络。
Jun, 2018
研究表明,对于深度神经网络的正则化应在其初期而非后期进行,且应当重视学习过程中的瞬态行为而非渐进行为。
May, 2019
本文研究数据增强在卷积神经网络中的隐式规则效应,与显式正则化技术(如权重衰减和 Dropout)相比,数据增强能更易于适应不同的网络结构和训练数据。通过对不同网络架构和训练数据量的消融研究,我们揭示了数据增强的优势,这是长期被忽视的问题。
Jun, 2019
本研究提出了一种基于正则化技术实现学习稀疏神经拓扑结构的方法,包括对非相关权重标定、压缩优化以及迭代式意义下的参数消除。在图像分类与自然语言生成任务中进行测试,并通过数据指标达到与或优于竞争对手等表现。
Apr, 2022
通过不同的深度学习算法以及数据集,我们发现在数据集有限的情况下,模型的复杂度是一个至关重要的因素,我们的研究表明,与过去文献不同的是,在一些配置下,使用低复杂度的卷积神经网络可以达到或超过现有的极限水平。此外,数据扩充也可以大幅提高性能,并且在数据量有限的情况下,dropout 仍然表现出良好的正则化效果。
Mar, 2020
该篇论文提出了一种纠正深度神经网络中标签不准确的技术:通过增加一个噪声模型的 softmax 层,采用端到端的随机梯度下降来优化网络以及噪声模型,借助 dropout 正则化防止噪声模型过于简单。在 CIFAR-10 和 MNIST 数据集上的数值实验显示,该 dropout 技术优于最先进的方法。
May, 2017
研究了 Dropout 在不同机器学习问题中提供的容量控制能力。在深度学习中,Dropout 的数据依赖正则化直接控制了基本深度神经网络类的 Rademacher 复杂度,并在矩阵完成和训练深度神经网络中给出了具体的泛化误差界限。在真实数据集,包括 MovieLens,MNIST 和 Fashion-MNIST 上评估了理论发现。
Mar, 2020
本文介绍了一种新的结构化 dropout 形式 ——LayerDrop,该形式可在训练过程中实现正则化效果,在推理时允许有效的剪枝。作者通过实验证明了该方法对机器翻译、语言模型、文本摘要、问答和语言理解等基准测试的提升,并提出使用该方法可以得到更高质量的类 BERT 模型。
Sep, 2019