一种具有概率掩码的语言模型，能够按任意字序进行自回归生成

ACLApr, 2020

一种具有概率掩码的语言模型，能够按任意字序进行自回归生成

Probabilistically Masked Language Model Capable of Autoregressive Generation in Arbitrary Word Order

Yi Liao, Xin Jiang, Qun Liu

TL;DR本文提出了一种基于掩模模型的概率掩模方案（PMLM），它支持按任意顺序生成文本，并在下游自然语言理解任务上超越了 BERT。

Abstract

masked language model and autoregressive language model are two types of language models. While pretrained masked →

language models masked language model autoregressive language model natural language understanding natural language generation

发现论文，激发创造

UniLMv2：伪掩码统一语言模型预训练

本文提出了一种称为 Pseudo-Masked Language Model（PMLM）的新训练程序，用于预训练统一的语言模型以处理自动编码和部分自回归语言建模任务，并通过自我注意力掩码和位置嵌入来避免冗余计算，在自然语言理解和生成任务方面取得了新的最先进的结果。

Feb, 2020

AMOM: 条件掩码语言模型的自适应掩码

本文介绍了一种简单而有效的自适应遮盖策略，用于增强解码器的细化能力和简化编码器优化，证明该方法在多任务序列生成中超越了强大的 CMLM 模型，在机器翻译任务中获得了最先进的性能，并在至少 2.2 倍的加速下比 AR Transformer 实现了更好的性能。

Mar, 2023

GLM: 基于自回归空白填充的通用语言模型预训练

本文提出了一种基于自回归的空白填充预训练方法称为 GLM，该方法通过添加 2D 位置编码和允许任意顺序来预测跨度来改进填空预训练。实验证明 GLM 在自然语言理解、有条件和无条件生成任务上的性能表现要好于 BERT、T5 和 GPT，预训练时还可以将空白的数量和长度改变以适应不同的任务类型。

Mar, 2021

PERT: 使用排列语言模型对 BERT 进行预训练

本文提出了一种新的预训练语言模型 (PERT)，它是一种自动编码模型，使用排列语言模型技术进行训练，并应用全词遮盖和 N-gram 遮盖以提高其性能。实验结果表明，PERT 可以在某些任务上比其他相似模型有更好的性能表现。

Mar, 2022

Mask-Predict: 条件掩码语言模型的并行解码

本文介绍了一种利用掩码语言建模来训练非自回归机器翻译模型的方法，并通过对多个数据集的实验验证，证明该方法在翻译质量和速度方面都优于现有的非自回归翻译模型，并且接近于左到右的变换器模型。

Apr, 2019

通用点模型与自编码和自回归

通过 GLM 的启发，我们提出了一种通用的点云变换器模型（GPM），它在点云表征任务、无条件和有条件的生成任务中都具有通用性，并通过各种形式的掩码填充任务以改善自动编码中的掩码预测，从而在点云理解方面提高了性能。与 Point-BERT、MaskPoint 和 PointMAE 等模型相比，我们的 GPM 在点云理解任务中取得了优越的性能。

Oct, 2023

掩蔽语言模型评分

通过掩码语言模型的伪对数似然得分，我们证明该方法在各种任务中优于自回归语言模型。RoBERTa 减小端到端 LibriSpeech 模型的 WER，同时增加低资源翻译的 BLEU 得分，这个成功要归功于伪对数似然得分的无监督表达，而不具有从左到右的偏见。

Oct, 2019

P$^3$LM: 基于概率排列的先知语言建模生成预训练

本文提出了一种名为 P3LM 的语言模型，通过学习生成排列顺序上的 token 和对应的未来 N 个 token，进一步加强了双向信息建模和长程相关性建模。在四个摘要数据集、两个问题生成数据集、一个对话问题回答数据集和一个对话回复数据集的广泛实验中，证明了 P3LM 在生成式预训练方法上具有最先进的结果。

Oct, 2022

探究基于掩码的语言模型数据生成

本文旨在探讨基于掩码语言模型的数据增强方法在自然语言处理领域的广泛应用及提高模型性能的有效性，以及近期对该模型在生成人工扩充数据方面的应用及实验结果。

Jun, 2023

将多语言理解模型推广为多语言生成器

这篇论文介绍了如何通过一种 SEMANTIC-GUIDED ALIGNMENT-THEN-DENOISING (SGA) 方法将一个多语言编码器 (XLM-R) 转化成一个强大的生成模型，实验结果表明改进的模型在机器翻译、问题生成和故事生成等任务中的表现均优于现有的方法。

May, 2023