使用子矩阵进行高效的批次随机失活训练
该论文介绍了一种名为 “多样本丢弃” 的强化丢弃 (dropout) 技术,它可以加速训练并提高网络的泛化性能。该方法采用多个丢弃样本进行训练,并通过对这些样本的损失值求平均来减少过拟合,实验结果表明,相比原始的 dropout 技术,使用该方法可以得到更低的分类错误率。
May, 2019
本文提出了一种新的 dropout 方法 —— 学习 dropout 模式。通过控制器在每个通道和层生成 dropout 模式,并利用其对目标网络进行训练,该方法被证明对图像识别和语言模型都有效。通过学习 dropout 模式,该模式还可以适应不同的任务和数据集。
Jan, 2021
研究了 Dropout 在不同机器学习问题中提供的容量控制能力。在深度学习中,Dropout 的数据依赖正则化直接控制了基本深度神经网络类的 Rademacher 复杂度,并在矩阵完成和训练深度神经网络中给出了具体的泛化误差界限。在真实数据集,包括 MovieLens,MNIST 和 Fashion-MNIST 上评估了理论发现。
Mar, 2020
本文理论分析了使用 dropout 作为低秩正则化器以解决矩阵分解与逼近问题的表现,证明了基于伯努利随机变量的 dropout 等价于 MF 的完全确定性模型,其中因素用列的平方欧几里得范数积之和进行正则化,同时在变尺寸的矩阵分解情况下,使用 dropout 可以实现带(平方)核范数正则化的凸逼近问题的全局最小值。
Oct, 2017
通过引入互相学习的训练策略,即 R-Block,结合两个不同 dropout 区域的互补子模型,该方法能够减小卷积层中的随机性,提高了性能和一致性。
Jul, 2023
本文主要研究卷积神经网络(CNNs)的正则化问题,提出了几种改进的 dropout 变体,通过在卷积操作之前放置 dropout 操作或将 BN 替换为 GN,以减少 dropout 和其后的 BN 之间的矛盾,以提高 CNNs 的训练效果和正则化。实验证明,通过这些方法构建的 CNN 的性能明显优于现有的 CNN,这主要归功于更好的正则化和隐式模型集成效应。
Apr, 2019
研究表明使用 dropout 训练神经网络对于使用流行的修正线性激活函数的网络的有效性有多种问题,探究了测试时权重缩放推断过程的质量,比较了几何平均数和算术平均数的性能,研究了非绑定权重的集合解释对集合的效果,最后,我们调查了基于最大似然集合梯度的带有偏估计器的替代准则。
Dec, 2013