PALM: 为上下文有条件生成训练自编码和自回归语言模型的预训练
本文提出了一种称为 Pseudo-Masked Language Model(PMLM)的新训练程序,用于预训练统一的语言模型以处理自动编码和部分自回归语言建模任务,并通过自我注意力掩码和位置嵌入来避免冗余计算,在自然语言理解和生成任务方面取得了新的最先进的结果。
Feb, 2020
我们提出了 XLNet—— 一种广义的自回归预训练方法,它通过最大化分解顺序的所有排列的期望似然来学习双向上下文,并且集成了 Transformer-XL 的思想,从而在 20 项任务中胜过了 BERT,包括问题回答、自然语言推断、情感分析和文档排名等方面。
Jun, 2019
本文提出了一种基于自回归的空白填充预训练方法称为 GLM,该方法通过添加 2D 位置编码和允许任意顺序来预测跨度来改进填空预训练。实验证明 GLM 在自然语言理解、有条件和无条件生成任务上的性能表现要好于 BERT、T5 和 GPT,预训练时还可以将空白的数量和长度改变以适应不同的任务类型。
Mar, 2021
BART 是一种预训练序列到序列模型的去噪自编码器,通过使用 Transformer 架构,并使用一些创新方法,如随机调换原始数据序列的顺序和填充原始数据中的实体,使得 BART 在文本生成、理解任务以及抽象对话等方面性能表现出色,超越了 RoBERTa,并提供了 1.1 个 BLEU 的机器翻译增量。
Oct, 2019
本文的研究表明,多语言去噪预训练在各种机器翻译任务中都有显著的性能提升,通过使用 BART 目标在许多语言的大规模单语语料库上进行序列到序列去噪自动编码器的预训练,我们提出了 mBART。mBART 是预训练完整序列到序列模型的首个方法之一,它能够直接进行监督(包括句子级和文档级)和无监督机器翻译的微调,而无需特定于任务的修改,并且在除最高资源设置外的所有设置中都能实现性能提升,包括低资源机器翻译和许多文档级和无监督模型的 12 BLEU 点和 5 BLEU 点以上。
Jan, 2020
PIXAR 是第一个基于像素的自回归型语言模型,它不依赖预定义的词汇表,可以用于自由形式的生成任务,并与先前的编码器 - 解码器模型在文本表示学习性能方面保持一致。通过简单的对抗预训练,PIXAR 的可读性和性能得到了显着提高,使其在短文本生成任务上与 GPT2 具有相媲美的表现。这为构建可用于自由形式生成任务的开放式词汇语言模型铺平了道路,并对这些具有挑战性的任务中通常的符号输入表示(文本作为标记)的必要性提出了质疑。
Jan, 2024
研究了采用预训练语言模型 (PLMs) 方法的文本生成任务,提出了一种用于 NAR 文本生成的有效 PLM(ELMER),它可以显式地建模 NAR 生成中的标记依赖。ELMER 可根据预测置信度在不同层产生标记,从而实现优化并快速的生成,在三个文本生成任务中取得优异的表现,同时达到了 10 倍的推理加速。
Oct, 2022
本文研究了利用图形自监督训练来提高 PLMs 模型在 AMR 图结构上的结构意识; 它同时介绍了两种图形自编码策略,四个任务以及一个统一的框架来缩小预训练和微调任务之间的差距。实验结果表明了这种方法在 AMR 分析和 AMR-to-text 生成方面的优越性。
Mar, 2022
使用 Tandem transformers 架构,通过将小型自回归模型与以块模式操作的大型模型结合,以提高预测准确性并加快推理速度。在预训练数据集上,Tandem 模型显示出对下一个标记预测准确性的 3.3%改进,相比于性能相当的 PaLM2-Otter 模型,速度提升了 1.16 倍,同时在维持相同下游任务准确性的前提下,通过将 Tandem 模型引入到推测解码框架中,以实现大幅加速(比使用单独的 PaLM2-Gecko 模型快约 1.14 倍)。
Feb, 2024