重新审视结构化 Dropout
本文介绍了一种结构化的 DropBlock 正则化形式,适用于卷积神经网络。在 ImageNet 分类和 COCO 检测中,使用 DropBlock 对 ResNet-50 和 RetinaNet 的平均精度和准确率都有了明显的提升。
Oct, 2018
本文介绍了一种新的结构化 dropout 形式 ——LayerDrop,该形式可在训练过程中实现正则化效果,在推理时允许有效的剪枝。作者通过实验证明了该方法对机器翻译、语言模型、文本摘要、问答和语言理解等基准测试的提升,并提出使用该方法可以得到更高质量的类 BERT 模型。
Sep, 2019
研究了深度神经网络的 dropout 正则化并提出了一种新的框架来理解深度神经网络中的加性噪声。研究了多种不同噪声并导出了其等价性,进而使 dropout 的 Monte Carlo 训练目标逼近了边缘 MAP 估计。进一步基于这些洞见提出了一种新的收缩框架用于深度神经网络,并对两种改进后的推理策略在回归基准测试中进行了调查。
Oct, 2018
单层线性网络中,DropBlock 引入了谱 k-support 正则化,促使解具有低秩和等范数的因子。这个全局极小值可以用闭合形式计算。若在最后一层应用 Dropout,某些假设下此结果可扩展到 Dropout 策略的一般类和深度非线性网络中,并用经常使用的网络结构实验验证了理论结论和假设。
Oct, 2019
通过引入互相学习的训练策略,即 R-Block,结合两个不同 dropout 区域的互补子模型,该方法能够减小卷积层中的随机性,提高了性能和一致性。
Jul, 2023
本文提出了一种新的 dropout 方法 —— 学习 dropout 模式。通过控制器在每个通道和层生成 dropout 模式,并利用其对目标网络进行训练,该方法被证明对图像识别和语言模型都有效。通过学习 dropout 模式,该模式还可以适应不同的任务和数据集。
Jan, 2021
这篇论文提出了一种基于 Bayesian 模型的 dropout 正则化方法,该方法将噪声注入神经元输出中以提供结构化稀疏性,从而去除计算图中的低 SNR 元素,并在多个深度神经结构中实现了显著的加速。
May, 2017
本文主要研究卷积神经网络(CNNs)的正则化问题,提出了几种改进的 dropout 变体,通过在卷积操作之前放置 dropout 操作或将 BN 替换为 GN,以减少 dropout 和其后的 BN 之间的矛盾,以提高 CNNs 的训练效果和正则化。实验证明,通过这些方法构建的 CNN 的性能明显优于现有的 CNN,这主要归功于更好的正则化和隐式模型集成效应。
Apr, 2019
通过集成学习,本文探讨使用结构化 dropout 方法以促进模型多样性和提高置信度校准。在三个数据集中对比了多种 dropout 技术的模型多样性和置信误差,并在贝叶斯主动学习案例中验证了结构化 dropout 方法的优势。
Jun, 2019