本文提出了基于贝叶斯学习的算法,通过引入随机梯度 Markov Chain Monte Carlo 的思想对 RNN 模型进行权重不确定性学习,从而提高模型在各个任务上的表现。
Nov, 2016
本研究旨在利用模型不确定性作为 BNN 结构学习的框架,提出了可与模型空间约束结合的可扩展变分推理方法,试图在模型和参数的联合空间中进行推理,进而实现结构和参数不确定性的组合,并在基准数据集上进行了实验,表明使方法比普通 Bayesian neural networks 更加稀疏,但得到了与竞争模型相当的精度结果。
May, 2023
本研究提出两种创新方法以将变分贝叶斯转化为贝叶斯神经网络的稳健推理工具:一种新的确定性方法用于逼近神经网络的矩,消除了梯度方差;一种参数的分层先验和自动选择先验方差的新的经验贝叶斯程序。将这两种方法结合起来,所得到的方法高效而稳健,在异方差回归应用中表现出了很好的预测性能。
Oct, 2018
通过研究两种常见的变分方法,该文证明了在低不确定性区域之间不存在过多信息增加的情况,并提供了深度神经网络中的柔性不确定性估计的近似贝叶斯后验分布,但发现了类似于单隐层 ReLU 情况的病理现象。
Sep, 2019
本文提出了一种基于贝叶斯 RNN 模型的非线性时空预测方法,旨在通过量化不确定性来提高预测准确性,同时通过简单修正基本的 RNN 以适应非线性时空数据的独特性。该方法成功应用于一种 Lorenz 模拟以及两个实际的非线性时空预测应用。
Nov, 2017
该论文介绍了一种基于变分推断的 dropout 新技术,并探讨了如何将其应用到 LSTM 和 GRU 模型中,这种方法表现优于现有技术,并在语言模型中取得了最佳结果。
Dec, 2015
我们提出使用变分顺序蒙特卡洛方法拟合随机低秩递归神经网络,验证了该方法在多个数据集上的有效性,并展示了对具有分段线性非线性性质的低秩模型进行高效识别的方法,可为大型递归神经网络的推断动态分析提供可行性。
Jun, 2024
提出一种普遍的贝叶斯学习框架,利用三种方法模拟 LSTM-RNN 和 Transformer LMs 的模型参数、神经激活选择和隐藏输出表示的不确定性,使用神经结构搜索自动选择优化网络内部组件,并使用有效的推断方法来降低计算成本,并在 AMI 会议转录和 LRS2 超叠话音频道的语音识别任务中实验验证,相对于基线 LSTM-RNN 和 Transformer LMs,在困惑度和字错误率方面均取得了一致的性能提升。
Aug, 2022
该论文介绍了一种基于贝叶斯原理的神经网络反演方法,利用对先验分布采样的数据正则化参数,从而提高神经网络模型的预测不确定性识别和量化能力。经过理论和实证分析,该方法相对于传统的平均集成技术具有更好的性能表现。
提出一种新的关于循环神经网络语言模型中数据噪声的理论视角,证明了每一种数据噪声变种都是贝叶斯循环神经网络的一个实例,我们利用这个视角来提出一种更加有原则的方法,并在变分框架下提出了自然的数据噪声扩展方法,通过两个基准的语言建模数据集的实验证明了我们分析的有效性,并证明了我们的方法比现有的数据噪声方法更具实际效果。
Jan, 2019