重新审视结构化 Dropout

Oct, 2022

Revisiting Structured Dropout

Yiren Zhao, Oluwatomisin Dada, Xitong Gao, Robert D Mullins

TL;DR本文研究使用多个有构造性的 Dropout 方法在多个现代神经网络上进行自然语言处理和计算机视觉任务。我们提出了一种名为 ProbDropBlock 的方法，该方法可以提高模型的性能，并且已经在 RoBERTa 和 ImageNet 上得到验证。

Abstract

Large neural networks are often overparameterised and prone to overfitting, dropout is a widely used regularization technique to combat overfitting and improve model generalization. However, unstructured

neural networks dropout structured dropout probdropblock model performance

发现论文，激发创造

DropBlock: 卷积网络的一种正则化方法

本文介绍了一种结构化的 DropBlock 正则化形式，适用于卷积神经网络。在 ImageNet 分类和 COCO 检测中，使用 DropBlock 对 ResNet-50 和 RetinaNet 的平均精度和准确率都有了明显的提升。

Oct, 2018

结构化丢弃降低 Transformer 深度

本文介绍了一种新的结构化 dropout 形式 ——LayerDrop，该形式可在训练过程中实现正则化效果，在推理时允许有效的剪枝。作者通过实验证明了该方法对机器翻译、语言模型、文本摘要、问答和语言理解等基准测试的提升，并提出使用该方法可以得到更高质量的类 BERT 模型。

Sep, 2019

Dropout 作为一种结构收缩先验

研究了深度神经网络的 dropout 正则化并提出了一种新的框架来理解深度神经网络中的加性噪声。研究了多种不同噪声并导出了其等价性，进而使 dropout 的 Monte Carlo 训练目标逼近了边缘 MAP 估计。进一步基于这些洞见提出了一种新的收缩框架用于深度神经网络，并对两种改进后的推理策略在回归基准测试中进行了调查。

Oct, 2018

关于结构化 Dropout 正则化特性的研究

单层线性网络中，DropBlock 引入了谱 k-support 正则化，促使解具有低秩和等范数的因子。这个全局极小值可以用闭合形式计算。若在最后一层应用 Dropout，某些假设下此结果可扩展到 Dropout 策略的一般类和深度非线性网络中，并用经常使用的网络结构实验验证了理论结论和假设。

Oct, 2019

R-Block: 卷积网络的正则化 Dropout 块

通过引入互相学习的训练策略，即 R-Block，结合两个不同 dropout 区域的互补子模型，该方法能够减小卷积层中的随机性，提高了性能和一致性。

Jul, 2023

课程辍学

本研究提出了一种名为 “课程退火” 的优化策略，通过逐渐在神经网络结构中添加噪声的方式，从而实施一种非常通用的课程方案，进而创造更好的模型。

Mar, 2017

AutoDropout: 学习 Dropout 模式以规范深度网络

本文提出了一种新的 dropout 方法 —— 学习 dropout 模式。通过控制器在每个通道和层生成 dropout 模式，并利用其对目标网络进行训练，该方法被证明对图像识别和语言模型都有效。通过学习 dropout 模式，该模式还可以适应不同的任务和数据集。

Jan, 2021

通过对数正态乘性噪声实现结构化贝叶斯剪枝

这篇论文提出了一种基于 Bayesian 模型的 dropout 正则化方法，该方法将噪声注入神经元输出中以提供结构化稀疏性，从而去除计算图中的低 SNR 元素，并在多个深度神经结构中实现了显著的加速。

May, 2017

深度卷积神经网络中有效高效的 dropout

本文主要研究卷积神经网络（CNNs）的正则化问题，提出了几种改进的 dropout 变体，通过在卷积操作之前放置 dropout 操作或将 BN 替换为 GN，以减少 dropout 和其后的 BN 之间的矛盾，以提高 CNNs 的训练效果和正则化。实验证明，通过这些方法构建的 CNN 的性能明显优于现有的 CNN，这主要归功于更好的正则化和隐式模型集成效应。

Apr, 2019

使用结构化随机失活进行卷积神经网络置信度校准

通过集成学习，本文探讨使用结构化 dropout 方法以促进模型多样性和提高置信度校准。在三个数据集中对比了多种 dropout 技术的模型多样性和置信误差，并在贝叶斯主动学习案例中验证了结构化 dropout 方法的优势。

Jun, 2019