用于语言建模的可伸缩循环神经网络贝叶斯学习

ACLNov, 2016

用于语言建模的可伸缩循环神经网络贝叶斯学习

Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling

Zhe Gan, Chunyuan Li, Changyou Chen, Yunchen Pu, Qinliang Su...

TL;DR本文提出了基于贝叶斯学习的算法，通过引入随机梯度 Markov Chain Monte Carlo 的思想对 RNN 模型进行权重不确定性学习，从而提高模型在各个任务上的表现。

Abstract

recurrent neural networks (RNNs) have shown promising performance for language modeling. However, traditional training of RNNs using back-propagation through time often suffers from overfitting. One reason for this is that →

recurrent neural networks back-propagation through time stochastic optimization bayesian learning algorithm model averaging

发现论文，激发创造

贝叶斯递归神经网络

使用变分贝叶斯方法和后向传播裁剪算法等对循环神经网络进行训练，大幅降低了参数数量和提高了贝叶斯逼近性能。在语言建模和图像描述等任务中，贝叶斯循环神经网络优于传统循环神经网络。

Apr, 2017

具有随机层的序列神经模型

本文介绍了一种新的神经网络模型 —— 随机循环神经网络，该模型能高效地传播潜在状态的不确定性来构建序列神经生成模型，并在语音和音乐建模方面取得了比同类方法更好的结果。

May, 2016

基于贝叶斯神经网络的语言模型用于语音识别

提出一种普遍的贝叶斯学习框架，利用三种方法模拟 LSTM-RNN 和 Transformer LMs 的模型参数、神经激活选择和隐藏输出表示的不确定性，使用神经结构搜索自动选择优化网络内部组件，并使用有效的推断方法来降低计算成本，并在 AMI 会议转录和 LRS2 超叠话音频道的语音识别任务中实验验证，相对于基线 LSTM-RNN 和 Transformer LMs，在困惑度和字错误率方面均取得了一致的性能提升。

Aug, 2022

贝叶斯循环神经网络模型用于空间 - 时间数据的预测和不确定性量化

本文提出了一种基于贝叶斯 RNN 模型的非线性时空预测方法，旨在通过量化不确定性来提高预测准确性，同时通过简单修正基本的 RNN 以适应非线性时空数据的独特性。该方法成功应用于一种 Lorenz 模拟以及两个实际的非线性时空预测应用。

Nov, 2017

从神经数据推断随机低秩循环神经网络

我们提出使用变分顺序蒙特卡洛方法拟合随机低秩递归神经网络，验证了该方法在多个数据集上的有效性，并展示了对具有分段线性非线性性质的低秩模型进行高效识别的方法，可为大型递归神经网络的推断动态分析提供可行性。

Jun, 2024

学习随机递归网络

本文介绍一种基于变分推断的循环神经网络模型 ——Stochastic Recurrent Network（STORN），通过引入潜变量来提高循环神经网络的性能，实现了结构化和多模态条件下的建模。作者在四个多声部音乐数据集和运动捕捉数据上对该模型进行了评估。

Nov, 2014

嘈杂循环神经网络

研究透过向隐含状态注入噪音训练的递归神经网络，已证实该方法可提升其稳定性及鲁棒性。

Feb, 2021

通过贝叶斯学习深度神经网络结构来度量不确定性

这篇研究论文探究了一种新型的贝叶斯深度学习，通过在网络结构上执行贝叶斯推断来加强深度网络的不确定性估计，并提出了一种有效的随机变分推断方法，以统一网络结构和权重的学习。

Nov, 2019

模型和参数不确定性下的贝叶斯神经网络变分推断

本研究旨在利用模型不确定性作为 BNN 结构学习的框架，提出了可与模型空间约束结合的可扩展变分推理方法，试图在模型和参数的联合空间中进行推理，进而实现结构和参数不确定性的组合，并在基准数据集上进行了实验，表明使方法比普通 Bayesian neural networks 更加稀疏，但得到了与竞争模型相当的精度结果。

May, 2023

随机梯度马尔可夫链蒙特卡罗下的非凸贝叶斯学习

本论文主要研究基于非凸贝叶斯学习问题的人工智能、深度神经网络、Langevin Monte Carlo、动态重要性抽样等方面的算法和理论，包括控制变量减少噪声能量估计器方差、基于非可逆性的群链复制交换等算法及解决梯度消失问题的动态重要性抽样等，旨在提高大数据情况下的效率与稳定性。

May, 2023