循环神经网络中基于理论的 Dropout 应用

NIPSDec, 2015

循环神经网络中基于理论的 Dropout 应用

A Theoretically Grounded Application of Dropout in Recurrent Neural Networks

Yarin Gal, Zoubin Ghahramani

TL;DR该论文介绍了一种基于变分推断的 dropout 新技术，并探讨了如何将其应用到 LSTM 和 GRU 模型中，这种方法表现优于现有技术，并在语言模型中取得了最佳结果。

Abstract

recurrent neural networks (RNNs) stand at the forefront of many recent developments in deep learning. Yet a major difficulty with these models is their tendency to overfit, with dropout shown to fail when applied

recurrent neural networks bayesian modelling dropout lstm gru

发现论文，激发创造

Dropout 作为贝叶斯近似：在深度学习中表示模型不确定性

本研究发展了一种新的理论框架，将深度神经网络的 dropout 训练视为深高斯过程中的近似贝叶斯推断。我们的理论框架使我们能够通过 dropout 神经网络建模不确定性，从而解决了在深度学习中表示不确定性的问题，而不会牺牲计算复杂性或测试精度。

Jun, 2015

快速 dropout 及其在循环网络中的应用

本文研究了快速 Dropout（一种用于常规线性模型和神经网络的正则化方法）的后向传递启发式视角，证明了它实现了自适应、参数之间的二次正则化项，对欠拟合情况下的大权重进行奖励，对过度自信预测进行惩罚，并在未正则化的训练损失极小值处消失。该正则化项的导数完全基于训练误差信号，因此没有全局权重吸引器，这可以改善 RNN 的性能。作者基于四个音乐数据集，证实了该假设。

Nov, 2013

Dropout 改进手写体识别的循环神经网络

使用 dropout 技术可以极大地提高长短期记忆递归神经网络在无约束手写识别中的性能表现。

Nov, 2013

循环神经网络的贝叶斯稀疏化

本文通过采用稀疏变分 dropout 技术和二元变分 dropout 技术，对循环神经网络进行稀疏化处理，并在情感分析和语言建模任务中取得了较高的稀疏度和较低的信息损失。

Jul, 2017

Dropout 作为贝叶斯近似：附录

采用随机失活（dropout）技术的神经网络可以被等效地表示为贝叶斯模型的一种逼近，该方法可以帮助我们更好地理解神经网络中的不确定性并将贝叶斯方法引入深度学习框架。

Jun, 2015

贝叶斯递归神经网络

使用变分贝叶斯方法和后向传播裁剪算法等对循环神经网络进行训练，大幅降低了参数数量和提高了贝叶斯逼近性能。在语言建模和图像描述等任务中，贝叶斯循环神经网络优于传统循环神经网络。

Apr, 2017

循环神经网络正则化

该研究介绍了一种简单的正则化技术，在循环神经网络 (RNNs) 与长短期记忆 (LSTM) 单元上应用 Dropout 可以减少不同任务中的过度拟合，包括语言建模、语音识别、图像字幕生成和机器翻译等。

Sep, 2014

适用于循环神经网络的对抗性 dropout

通过采用敌对概念生成的 dropout mask 来改进循环神经网络的性能，实现了对于时序 MNIST 任务、半监督文本分类任务和语言建模任务中 RNNs 的 dropout 技术的有效性提高。

Apr, 2019

R-Drop: 神经网络的正则化丢弃

本文中介绍了一种简单的正则化方法 R-Drop，该方法强制不同子模型生成的输出分布相互一致，从而提高了深度学习模型的效果。通过在 5 个深度学习任务（包括神经机器翻译、摘要概括、语言理解、语言建模和图像分类）上的实验证明，R-Drop 是普遍有效的，并在 Vanilla Transformer 模型上实现了最先进的性能。

Jun, 2021

深度神经网络的 Dropout 方法调查

本文总结了 dropout 方法的历史、各种应用以及当前研究兴趣的领域，同时详细描述了一些重要的提出方法。

Apr, 2019