贝叶斯鼓励辍学
采用随机失活(dropout)技术的神经网络可以被等效地表示为贝叶斯模型的一种逼近,该方法可以帮助我们更好地理解神经网络中的不确定性并将贝叶斯方法引入深度学习框架。
Jun, 2015
该研究论文探讨了 dropout 作为一种正则化技术在线性分类问题中的应用。通过比较不同正则化技术的表现,研究人员得出一些结论并分析了 dropout 的优势所在。
Dec, 2014
本研究发展了一种新的理论框架,将深度神经网络的 dropout 训练视为深高斯过程中的近似贝叶斯推断。我们的理论框架使我们能够通过 dropout 神经网络建模不确定性,从而解决了在深度学习中表示不确定性的问题,而不会牺牲计算复杂性或测试精度。
Jun, 2015
研究表明,Dropout 不仅是一种常用的 Deep Learning 正则化器,而且可以视为对网络参数进行近似贝叶斯推断的一种方式。该论文提出了一种名为 Generalized Dropout 的正则化器家族,并介绍了该家族的一些成员,如可训练参数版本的 Dropout++ 和选择神经网络层宽的方法。实验证明,这些方法比 Dropout 在泛化性能方面更好。
Nov, 2016
将 Dropout 重新解释为贝叶斯神经网络的近似推理算法,提出了一个有用的理论框架,但对于使用不当的先验概率,存在未定义或病态行为的真后验分布问题;对于近似分布相对于真后验分布的奇异性而言,近似难以定义。为了解决这些问题,提出了 Quasi-KL(QKL)差异作为新的近似推理目标。
Jul, 2018
该论文介绍了一种基于变分推断的 dropout 新技术,并探讨了如何将其应用到 LSTM 和 GRU 模型中,这种方法表现优于现有技术,并在语言模型中取得了最佳结果。
Dec, 2015
本文主要研究 dropout 在深度学习中的应用,发现 dropout 会在单隐藏层线性神经网络中导致隐藏节点的输入 / 输出权重向量模长相等,同时提供了 dropout 所导致的优化景观的完整特征描述。
Jun, 2018
本文研究表明,与只在训练后期使用 dropout 的模型不同,在训练开始时使用 dropout 可减弱梯度方向差异和限制单个批次对模型训练的影响,从而更好地提高模型的泛化精度。
Mar, 2023
该研究论文通过将 dropout 解释为一种正则化方法,建立了它与 L2 正则化和 AdaGrad 的联系。进一步地,该方法可被应用于半监督学习,旨在提高模型性能,并在文本分类任务中得到了成功应用。
Jul, 2013