GLM: 基于自回归空白填充的通用语言模型预训练

ACLMar, 2021

GLM: 基于自回归空白填充的通用语言模型预训练

GLM: General Language Model Pretraining with Autoregressive Blank Infilling

Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu...

TL;DR本文提出了一种基于自回归的空白填充预训练方法称为 GLM，该方法通过添加 2D 位置编码和允许任意顺序来预测跨度来改进填空预训练。实验证明 GLM 在自然语言理解、有条件和无条件生成任务上的性能表现要好于 BERT、T5 和 GPT，预训练时还可以将空白的数量和长度改变以适应不同的任务类型。

Abstract

There have been various types of pretraining architectures including autoencoding models (e.g., BERT), autoregressive models (e.g., GPT), and encoder-decoder models (e.g., T5). However, none of the pretraining fr

pretraining general language model nlu blank infilling performance gains

发现论文，激发创造

通用点模型与自编码和自回归

通过 GLM 的启发，我们提出了一种通用的点云变换器模型（GPM），它在点云表征任务、无条件和有条件的生成任务中都具有通用性，并通过各种形式的掩码填充任务以改善自动编码中的掩码预测，从而在点云理解方面提高了性能。与 Point-BERT、MaskPoint 和 PointMAE 等模型相比，我们的 GPM 在点云理解任务中取得了优越的性能。

Oct, 2023

一种具有概率掩码的语言模型，能够按任意字序进行自回归生成

本文提出了一种基于掩模模型的概率掩模方案（PMLM），它支持按任意顺序生成文本，并在下游自然语言理解任务上超越了 BERT。

Apr, 2020

XLNet：语言理解的泛化自回归预训练

我们提出了 XLNet—— 一种广义的自回归预训练方法，它通过最大化分解顺序的所有排列的期望似然来学习双向上下文，并且集成了 Transformer-XL 的思想，从而在 20 项任务中胜过了 BERT，包括问题回答、自然语言推断、情感分析和文档排名等方面。

Jun, 2019

将多语言理解模型推广为多语言生成器

这篇论文介绍了如何通过一种 SEMANTIC-GUIDED ALIGNMENT-THEN-DENOISING (SGA) 方法将一个多语言编码器 (XLM-R) 转化成一个强大的生成模型，实验结果表明改进的模型在机器翻译、问题生成和故事生成等任务中的表现均优于现有的方法。

May, 2023

mGPT: 少样本学习器转向多语言

本文介绍了两种自回归 GPT 类模型，使用维基百科和 Colossal Clean Crawled Corpus 训练了 60 种语言、25 种语言系的搜索，展示了多种任务上的表现，包括分类、生成、序列标记和知识探测，在多语种任务上有着与 Facebook 最近发布的 XGLM 模型相媲美的表现。

Apr, 2022

PALM: 为上下文有条件生成训练自编码和自回归语言模型的预训练

本文提出了一种新颖的方法 PALM，用于在大规模无标签语料库上联合预训练自编码和自回归语言模型，特别为给定上下文生成新文本设计，实验证明该方法在各种语言生成基准测试中均取得了新的最优结果。

Apr, 2020

UniLMv2：伪掩码统一语言模型预训练

本文提出了一种称为 Pseudo-Masked Language Model（PMLM）的新训练程序，用于预训练统一的语言模型以处理自动编码和部分自回归语言建模任务，并通过自我注意力掩码和位置嵌入来避免冗余计算，在自然语言理解和生成任务方面取得了新的最先进的结果。

Feb, 2020

高效训练语言模型以填充中间部分

通过在数据集中间将文本移动到末尾后，自回归语言模型可以学习填补文本，进行数据增强不会影响原始的生成性能，因此我们建议未来应默认使用填补法来训练自回归语言模型，我们通过对关键超参数的剖析，制定了强有力的默认设置和最佳实践。

Jul, 2022

我们是否应该使用检索方法预训练自回归语言模型？一项全面研究

通过引入检索机制可以提高大型解码器语言模型的困惑度和生成质量，本文提出了一种可扩展的预训练检索增强语言模型，它在实验证明了在知识密集型任务上优于标准 GPT，未来这可能是预训练自回归 LM 的有前途的方向。

Apr, 2023

预训练语言模型的非自回归式文本生成

本文提出了一种基于 BERT 的非自回归文本生成模型，通过引入新的解码策略（ratio-first）以及机制来解决 NAG 模型中的两个问题，并在三个文本生成任务上进行全面评估，证明该模型在速度和性能上均优于现有的非自回归基线模型，在许多强自回归模型上也取得了有竞争力的性能.

Feb, 2021