多样本 Dropout 用于加速训练与提高泛化能力
本研究提出使用多项式抽样的退役方法,并分析了使用多项式退役的浅层学习。通过最小化风险界中的采样相关因子,我们获得了基于分布的退役,用于处理深度学习中的神经元演化问题,进一步提出了一种名为 “进化退役” 的自适应退役,以从小批量示例即时计算采样概率。实证研究表明,与标准的退役相比,所提出的退役不仅实现了更快的收敛速度,而且在预测性能和收敛速度上都有超过 10%和 50%的相对改进。
Feb, 2016
本文运用深度学习中的卷积神经网络构建了一种 Two-Round 训练方法,定位和排除不利于提高泛化准确性的训练样本,从而提高了基于图像分类和降噪的高级和低级计算机视觉任务的处理性能。
Sep, 2018
研究表明,Dropout 不仅是一种常用的 Deep Learning 正则化器,而且可以视为对网络参数进行近似贝叶斯推断的一种方式。该论文提出了一种名为 Generalized Dropout 的正则化器家族,并介绍了该家族的一些成员,如可训练参数版本的 Dropout++ 和选择神经网络层宽的方法。实验证明,这些方法比 Dropout 在泛化性能方面更好。
Nov, 2016
本文中介绍了一种简单的正则化方法 R-Drop,该方法强制不同子模型生成的输出分布相互一致,从而提高了深度学习模型的效果。通过在 5 个深度学习任务(包括神经机器翻译、摘要概括、语言理解、语言建模和图像分类)上的实验证明,R-Drop 是普遍有效的,并在 Vanilla Transformer 模型上实现了最先进的性能。
Jun, 2021
本文研究表明,与只在训练后期使用 dropout 的模型不同,在训练开始时使用 dropout 可减弱梯度方向差异和限制单个批次对模型训练的影响,从而更好地提高模型的泛化精度。
Mar, 2023
该篇论文提出了一种纠正深度神经网络中标签不准确的技术:通过增加一个噪声模型的 softmax 层,采用端到端的随机梯度下降来优化网络以及噪声模型,借助 dropout 正则化防止噪声模型过于简单。在 CIFAR-10 和 MNIST 数据集上的数值实验显示,该 dropout 技术优于最先进的方法。
May, 2017
本文提出了一种简单而有效的方法,通过在每个参数的内部循环优化中随机删除梯度来缓解基于梯度的元学习的过拟合风险,从而改善了深度神经网络在新任务上的泛化性能。 作者在大量计算机视觉任务上进行了实验和分析,证明了梯度丢失规范化可以缓解过拟合问题并提高各种基于梯度的元学习框架的性能。
Apr, 2020
研究探索了一种替代 dropout mask 的 dropout 技术,通过 batchwise dropout,可以应用于全连接和卷积神经网络中,通过使用 submatrix 的权重矩阵来执行矩阵乘法,减少了繁琐的计算过程,提高了训练效率。
Feb, 2015