本研究发展了一种新的理论框架,将深度神经网络的 dropout 训练视为深高斯过程中的近似贝叶斯推断。我们的理论框架使我们能够通过 dropout 神经网络建模不确定性,从而解决了在深度学习中表示不确定性的问题,而不会牺牲计算复杂性或测试精度。
Jun, 2015
本文研究了快速 Dropout(一种用于常规线性模型和神经网络的正则化方法)的后向传递启发式视角,证明了它实现了自适应、参数之间的二次正则化项,对欠拟合情况下的大权重进行奖励,对过度自信预测进行惩罚,并在未正则化的训练损失极小值处消失。该正则化项的导数完全基于训练误差信号,因此没有全局权重吸引器,这可以改善 RNN 的性能。作者基于四个音乐数据集,证实了该假设。
Nov, 2013
使用 dropout 技术可以极大地提高长短期记忆递归神经网络在无约束手写识别中的性能表现。
本文通过采用稀疏变分 dropout 技术和二元变分 dropout 技术,对循环神经网络进行稀疏化处理,并在情感分析和语言建模任务中取得了较高的稀疏度和较低的信息损失。
Jul, 2017
采用随机失活(dropout)技术的神经网络可以被等效地表示为贝叶斯模型的一种逼近,该方法可以帮助我们更好地理解神经网络中的不确定性并将贝叶斯方法引入深度学习框架。
使用变分贝叶斯方法和后向传播裁剪算法等对循环神经网络进行训练,大幅降低了参数数量和提高了贝叶斯逼近性能。在语言建模和图像描述等任务中,贝叶斯循环神经网络优于传统循环神经网络。
Apr, 2017
该研究介绍了一种简单的正则化技术,在循环神经网络 (RNNs) 与长短期记忆 (LSTM) 单元上应用 Dropout 可以减少不同任务中的过度拟合,包括语言建模、语音识别、图像字幕生成和机器翻译等。
Sep, 2014
通过采用敌对概念生成的 dropout mask 来改进循环神经网络的性能,实现了对于时序 MNIST 任务、半监督文本分类任务和语言建模任务中 RNNs 的 dropout 技术的有效性提高。
Apr, 2019
本文中介绍了一种简单的正则化方法 R-Drop,该方法强制不同子模型生成的输出分布相互一致,从而提高了深度学习模型的效果。通过在 5 个深度学习任务(包括神经机器翻译、摘要概括、语言理解、语言建模和图像分类)上的实验证明,R-Drop 是普遍有效的,并在 Vanilla Transformer 模型上实现了最先进的性能。
Jun, 2021
本文总结了 dropout 方法的历史、各种应用以及当前研究兴趣的领域,同时详细描述了一些重要的提出方法。