用于语言建模的可伸缩循环神经网络贝叶斯学习
使用变分贝叶斯方法和后向传播裁剪算法等对循环神经网络进行训练,大幅降低了参数数量和提高了贝叶斯逼近性能。在语言建模和图像描述等任务中,贝叶斯循环神经网络优于传统循环神经网络。
Apr, 2017
本文介绍了一种新的神经网络模型 —— 随机循环神经网络,该模型能高效地传播潜在状态的不确定性来构建序列神经生成模型,并在语音和音乐建模方面取得了比同类方法更好的结果。
May, 2016
提出一种普遍的贝叶斯学习框架,利用三种方法模拟 LSTM-RNN 和 Transformer LMs 的模型参数、神经激活选择和隐藏输出表示的不确定性,使用神经结构搜索自动选择优化网络内部组件,并使用有效的推断方法来降低计算成本,并在 AMI 会议转录和 LRS2 超叠话音频道的语音识别任务中实验验证,相对于基线 LSTM-RNN 和 Transformer LMs,在困惑度和字错误率方面均取得了一致的性能提升。
Aug, 2022
本文提出了一种基于贝叶斯 RNN 模型的非线性时空预测方法,旨在通过量化不确定性来提高预测准确性,同时通过简单修正基本的 RNN 以适应非线性时空数据的独特性。该方法成功应用于一种 Lorenz 模拟以及两个实际的非线性时空预测应用。
Nov, 2017
我们提出使用变分顺序蒙特卡洛方法拟合随机低秩递归神经网络,验证了该方法在多个数据集上的有效性,并展示了对具有分段线性非线性性质的低秩模型进行高效识别的方法,可为大型递归神经网络的推断动态分析提供可行性。
Jun, 2024
本文介绍一种基于变分推断的循环神经网络模型 ——Stochastic Recurrent Network(STORN),通过引入潜变量来提高循环神经网络的性能,实现了结构化和多模态条件下的建模。作者在四个多声部音乐数据集和运动捕捉数据上对该模型进行了评估。
Nov, 2014
这篇研究论文探究了一种新型的贝叶斯深度学习,通过在网络结构上执行贝叶斯推断来加强深度网络的不确定性估计,并提出了一种有效的随机变分推断方法,以统一网络结构和权重的学习。
Nov, 2019
本研究旨在利用模型不确定性作为 BNN 结构学习的框架,提出了可与模型空间约束结合的可扩展变分推理方法,试图在模型和参数的联合空间中进行推理,进而实现结构和参数不确定性的组合,并在基准数据集上进行了实验,表明使方法比普通 Bayesian neural networks 更加稀疏,但得到了与竞争模型相当的精度结果。
May, 2023
本论文主要研究基于非凸贝叶斯学习问题的人工智能、深度神经网络、Langevin Monte Carlo、动态重要性抽样等方面的算法和理论,包括控制变量减少噪声能量估计器方差、基于非可逆性的群链复制交换等算法及解决梯度消失问题的动态重要性抽样等,旨在提高大数据情况下的效率与稳定性。
May, 2023