检测非分布式翻译的变分转换器
本研究提出一种概率框架来自动学习选择哪些层来使用以优化 Transformer 模型的性能,用于训练一种适用于多语言机器翻译的共享 Transformer 网络,缓解梯度消失问题,从而使得深度 Transformer 网络(例如 100 层)稳定训练,并在机器翻译和语言建模任务中实现了更好的性能。
Sep, 2020
介绍了一种名为 BayesFormer 的基于 Bayesian theory 设计的 Transformer 模型,该模型利用变分推断中的 dropout 扩展到 Transformer-based architectures,通过多种实验在自然语言处理、机器翻译、长序列理解和主动学习等领域展现出了卓越的性能。
Jun, 2022
使用贝叶斯学习框架和变分推断优化,提高了 Transformer 神经语言模型的泛化性能和模型鲁棒性。在 Switchboard 语料库和 DementiaBank 中的实验都获得了明显的性能提升。
Feb, 2021
本文提出了一种使用只有训练集数据的预训练 Transformer 进行无监督的离群检测方法,该方法使用对比度损失调整 Transformer。最终使用马哈拉诺比斯距离来检测异常数据,实验表明,本文方法的性能超过了基准线,并且更紧凑的表示方法是改进的基础。
Apr, 2021
通过在基于 transformer 的语言模型中的注意力图上应用拓扑数据分析(TDA)来检测超出分布(OOD)的文本样本。我们评估了我们提出的基于 TDA 的 OOD 检测方法在 BERT 上的效果,并与基于 BERT CLS 嵌入的传统 OOD 方法进行了比较。我们发现,我们的 TDA 方法在区分内部数据(HuffPost 的政治和娱乐新闻文章)与远离领域样本(IMDB 评论)方面优于 CLS 嵌入方法,但其效果在接近领域(CNN / Dailymail)或相同领域(HuffPost 的商业新闻文章)数据集上逐渐减弱。
Nov, 2023
本文提出 DiscoDVT:一种基于离散变分 Transformer 的话语感知模型,用于帮助预训练语言模型生成保持长距离连贯性的长文章。通过学习一个可以概括全文结构的离散变量序列,并利用其指导每个解码步骤的生成过程。试验表明,离散编码与话语结构有显著联系,提高长段连贯性。
Oct, 2021
我们发现,LSTM 和 Transformer 语言模型系统地低估了来自目标语言的序列的概率,并且对于不太可能出现的序列更为严重,尽管使用更多的训练数据减轻了这种倾向,但这种低估行为还是存在,并且在目标分布熵较低时加剧了这种情况,并且找到了导致这种概率差距的原因在于语言模型往往会高估不规范序列的概率。
Mar, 2022
本文通过构建具有现实分布变化的新的鲁棒性基准,系统地测量了七个 NLP 数据集的预训练 Transformers 的 OOD 泛化能力。研究结果表明,Pretrained Transformers 的性能下降显著较小,在检测异常或 OOD 示例方面更加有效,同时发现更多样化的预训练数据可以增强模型的鲁棒性。
Apr, 2020