Jun, 2022

BayesFormer:具有不确定性估计的 Transformer 模型

TL;DR介绍了一种名为 BayesFormer 的基于 Bayesian theory 设计的 Transformer 模型,该模型利用变分推断中的 dropout 扩展到 Transformer-based architectures,通过多种实验在自然语言处理、机器翻译、长序列理解和主动学习等领域展现出了卓越的性能。