BayesFormer：具有不确定性估计的 Transformer 模型

Jun, 2022

BayesFormer：具有不确定性估计的 Transformer 模型

BayesFormer: Transformer with Uncertainty Estimation

Karthik Abinav Sankararaman, Sinong Wang, Han Fang

TL;DR介绍了一种名为 BayesFormer 的基于 Bayesian theory 设计的 Transformer 模型，该模型利用变分推断中的 dropout 扩展到 Transformer-based architectures，通过多种实验在自然语言处理、机器翻译、长序列理解和主动学习等领域展现出了卓越的性能。

Abstract

transformer has become ubiquitous due to its dominant performance in various NLP and image processing tasks. However, it lacks understanding of how to generate mathematically grounded uncertainty estimates for

transformer uncertainty estimates bayesian theory variational inference-based dropout active learning

发现论文，激发创造

贝叶斯层：神经网络不确定性模块

Bayesian Layers 是一种用于神经网络不确定性快速实验的模块，能够通过确定性和随机函数的统一抽象进行组合，从而实现可伸缩性，并且能够捕获权重、激活和功能本身等方面的不确定性，同时支持反向传递不确定性，同时提供了代码示例，可用于 Edward2 概率编程语言中的概率程序。

Dec, 2018

贝叶斯 Transformer 语言模型在语音识别中的应用

使用贝叶斯学习框架和变分推断优化，提高了 Transformer 神经语言模型的泛化性能和模型鲁棒性。在 Switchboard 语料库和 DementiaBank 中的实验都获得了明显的性能提升。

Feb, 2021

Dropout 作为贝叶斯近似：在深度学习中表示模型不确定性

本研究发展了一种新的理论框架，将深度神经网络的 dropout 训练视为深高斯过程中的近似贝叶斯推断。我们的理论框架使我们能够通过 dropout 神经网络建模不确定性，从而解决了在深度学习中表示不确定性的问题，而不会牺牲计算复杂性或测试精度。

Jun, 2015

基于不确定性的查询策略在使用 Transformers 进行主动学习中的再思考

本文探讨了如何将基于不确定性的查询策略与 transformers 相结合以实现 active learning，通过在五个广泛使用的文本分类基准测试中与其他不确定性策略进行比较，发现一些其他不确定性策略表现更好，挑战了 prediction entropy 查询策略在文本分类的 active learning 中最受欢迎的基线模型的地位。

Jul, 2021

BayesSpeech: 一种用于自动语音识别的 Bayesian Transformer 网络

使用 Bayesian Transformer Network 进行变分推理的经验深度学习模型在自动语音识别方面的性能近乎达到最新的循环神经网络技术，同时权重方差的引入可以使训练时间更快。

Jan, 2023

使用深度预训练模型和贝叶斯不确定性估计进行序列标注的主动学习

本文研究在序列标注上采用迁移学习和主动学习来减少注释预算的可行性，并通过 Bayesian 不确定性估计方法和 Monte Carlo Dropout 选项在深度预训练模型的主动学习框架中进行了广泛的实证研究，并发现了不同类型模型的最佳组合。此外，我们还展示了在主动学习期间获取实例的全尺寸 Transformer 可以被替换为简化版本，这可以提供更好的计算性能，降低了应用深度主动学习的障碍。

Jan, 2021

基于贝叶斯神经网络的语言模型用于语音识别

提出一种普遍的贝叶斯学习框架，利用三种方法模拟 LSTM-RNN 和 Transformer LMs 的模型参数、神经激活选择和隐藏输出表示的不确定性，使用神经结构搜索自动选择优化网络内部组件，并使用有效的推断方法来降低计算成本，并在 AMI 会议转录和 LRS2 超叠话音频道的语音识别任务中实验验证，相对于基线 LSTM-RNN 和 Transformer LMs，在困惑度和字错误率方面均取得了一致的性能提升。

Aug, 2022

贝叶斯神经网络的模型架构调整

本文提出一种新颖的网络架构搜索 (NAS) 方法，用于优化 Bayesian 神经网络（BNN）的精度和不确定性，同时减少推理延迟。与传统的 NAS 不同，该方法使用来自内部和外部分布的数据搜索模型的不确定性性能，从而可以在网络中搜索贝叶斯层的正确位置，并且相对于流行的 BNN 基线，使用的运行时仅为其一小部分，将推理运行时成本分别与 MCDropout 和 deep ensemble 相比在 CIFAR10 数据集上分别降低了 2.98 倍和 2.92 倍。

Feb, 2022

Dropout 作为贝叶斯近似：附录

采用随机失活（dropout）技术的神经网络可以被等效地表示为贝叶斯模型的一种逼近，该方法可以帮助我们更好地理解神经网络中的不确定性并将贝叶斯方法引入深度学习框架。

Jun, 2015

Yformer: 基于 U-Net 的 Transformer 架构用于远视时间序列预测

该论文提出了一种基于 Y-shaped 编码器 - 解码器结构的 Yformer 模型，结合稀疏注意力和下采样上采样过程，通过在四个基准数据集上进行的实验结果显示，该模型相比当前最先进的模型在一元和多元场景下的平均改进率分别为 19.82％和 18.41％MSE 和 13.62％和 11.85％MAE。

Oct, 2021