R-Block: 卷积网络的正则化 Dropout 块
本文介绍了一种结构化的 DropBlock 正则化形式,适用于卷积神经网络。在 ImageNet 分类和 COCO 检测中,使用 DropBlock 对 ResNet-50 和 RetinaNet 的平均精度和准确率都有了明显的提升。
Oct, 2018
本文中介绍了一种简单的正则化方法 R-Drop,该方法强制不同子模型生成的输出分布相互一致,从而提高了深度学习模型的效果。通过在 5 个深度学习任务(包括神经机器翻译、摘要概括、语言理解、语言建模和图像分类)上的实验证明,R-Drop 是普遍有效的,并在 Vanilla Transformer 模型上实现了最先进的性能。
Jun, 2021
单层线性网络中,DropBlock 引入了谱 k-support 正则化,促使解具有低秩和等范数的因子。这个全局极小值可以用闭合形式计算。若在最后一层应用 Dropout,某些假设下此结果可扩展到 Dropout 策略的一般类和深度非线性网络中,并用经常使用的网络结构实验验证了理论结论和假设。
Oct, 2019
本文研究使用多个有构造性的 Dropout 方法在多个现代神经网络上进行自然语言处理和计算机视觉任务。我们提出了一种名为 ProbDropBlock 的方法,该方法可以提高模型的性能,并且已经在 RoBERTa 和 ImageNet 上得到验证。
Oct, 2022
本文主要研究卷积神经网络(CNNs)的正则化问题,提出了几种改进的 dropout 变体,通过在卷积操作之前放置 dropout 操作或将 BN 替换为 GN,以减少 dropout 和其后的 BN 之间的矛盾,以提高 CNNs 的训练效果和正则化。实验证明,通过这些方法构建的 CNN 的性能明显优于现有的 CNN,这主要归功于更好的正则化和隐式模型集成效应。
Apr, 2019
本文提出了一种新的 dropout 方法 —— 学习 dropout 模式。通过控制器在每个通道和层生成 dropout 模式,并利用其对目标网络进行训练,该方法被证明对图像识别和语言模型都有效。通过学习 dropout 模式,该模式还可以适应不同的任务和数据集。
Jan, 2021
该研究介绍了一种简单的正则化技术,在循环神经网络 (RNNs) 与长短期记忆 (LSTM) 单元上应用 Dropout 可以减少不同任务中的过度拟合,包括语言建模、语音识别、图像字幕生成和机器翻译等。
Sep, 2014
本文研究了快速 Dropout(一种用于常规线性模型和神经网络的正则化方法)的后向传递启发式视角,证明了它实现了自适应、参数之间的二次正则化项,对欠拟合情况下的大权重进行奖励,对过度自信预测进行惩罚,并在未正则化的训练损失极小值处消失。该正则化项的导数完全基于训练误差信号,因此没有全局权重吸引器,这可以改善 RNN 的性能。作者基于四个音乐数据集,证实了该假设。
Nov, 2013