一种具有概率掩码的语言模型,能够按任意字序进行自回归生成
本文提出了一种称为 Pseudo-Masked Language Model(PMLM)的新训练程序,用于预训练统一的语言模型以处理自动编码和部分自回归语言建模任务,并通过自我注意力掩码和位置嵌入来避免冗余计算,在自然语言理解和生成任务方面取得了新的最先进的结果。
Feb, 2020
本文介绍了一种简单而有效的自适应遮盖策略,用于增强解码器的细化能力和简化编码器优化,证明该方法在多任务序列生成中超越了强大的 CMLM 模型,在机器翻译任务中获得了最先进的性能,并在至少 2.2 倍的加速下比 AR Transformer 实现了更好的性能。
Mar, 2023
本文提出了一种基于自回归的空白填充预训练方法称为 GLM,该方法通过添加 2D 位置编码和允许任意顺序来预测跨度来改进填空预训练。实验证明 GLM 在自然语言理解、有条件和无条件生成任务上的性能表现要好于 BERT、T5 和 GPT,预训练时还可以将空白的数量和长度改变以适应不同的任务类型。
Mar, 2021
本文提出了一种新的预训练语言模型 (PERT),它是一种自动编码模型,使用排列语言模型技术进行训练,并应用全词遮盖和 N-gram 遮盖以提高其性能。实验结果表明,PERT 可以在某些任务上比其他相似模型有更好的性能表现。
Mar, 2022
本文介绍了一种利用掩码语言建模来训练非自回归机器翻译模型的方法,并通过对多个数据集的实验验证,证明该方法在翻译质量和速度方面都优于现有的非自回归翻译模型,并且接近于左到右的变换器模型。
Apr, 2019
通过 GLM 的启发,我们提出了一种通用的点云变换器模型(GPM),它在点云表征任务、无条件和有条件的生成任务中都具有通用性,并通过各种形式的掩码填充任务以改善自动编码中的掩码预测,从而在点云理解方面提高了性能。与 Point-BERT、MaskPoint 和 PointMAE 等模型相比,我们的 GPM 在点云理解任务中取得了优越的性能。
Oct, 2023
通过掩码语言模型的伪对数似然得分,我们证明该方法在各种任务中优于自回归语言模型。RoBERTa 减小端到端 LibriSpeech 模型的 WER,同时增加低资源翻译的 BLEU 得分,这个成功要归功于伪对数似然得分的无监督表达,而不具有从左到右的偏见。
Oct, 2019
本文提出了一种名为 P3LM 的语言模型,通过学习生成排列顺序上的 token 和对应的未来 N 个 token,进一步加强了双向信息建模和长程相关性建模。在四个摘要数据集、两个问题生成数据集、一个对话问题回答数据集和一个对话回复数据集的广泛实验中,证明了 P3LM 在生成式预训练方法上具有最先进的结果。
Oct, 2022
这篇论文介绍了如何通过一种 SEMANTIC-GUIDED ALIGNMENT-THEN-DENOISING (SGA) 方法将一个多语言编码器 (XLM-R) 转化成一个强大的生成模型,实验结果表明改进的模型在机器翻译、问题生成和故事生成等任务中的表现均优于现有的方法。
May, 2023