P$^3$LM: 基于概率排列的先知语言建模生成预训练

EMNLPOct, 2022

P$^3$LM: 基于概率排列的先知语言建模生成预训练

P$^3$LM: Probabilistically Permuted Prophet Language Modeling for Generative Pre-Training

Junwei Bao, Yifan Wang, Jiangyong Ying, Yeyun Gong, Jing Zhao...

TL;DR本文提出了一种名为 P3LM 的语言模型，通过学习生成排列顺序上的 token 和对应的未来 N 个 token，进一步加强了双向信息建模和长程相关性建模。在四个摘要数据集、两个问题生成数据集、一个对话问题回答数据集和一个对话回复数据集的广泛实验中，证明了 P3LM 在生成式预训练方法上具有最先进的结果。

Abstract

Conventional autoregressive left-to-right (L2R) sequence generation faces two issues during decoding: limited to unidirectional target sequence modeling, and constrained on strong local dependencies. To address the aforementioned problem, we propose P$^3$LM, a probabilistically permuted prophet language model, which strengthens the modeling of →

p3lm bidirectional information long token dependencies permuted order multi-stream attention

发现论文，激发创造

一种具有概率掩码的语言模型，能够按任意字序进行自回归生成

本文提出了一种基于掩模模型的概率掩模方案（PMLM），它支持按任意顺序生成文本，并在下游自然语言理解任务上超越了 BERT。

Apr, 2020

UniLMv2：伪掩码统一语言模型预训练

本文提出了一种称为 Pseudo-Masked Language Model（PMLM）的新训练程序，用于预训练统一的语言模型以处理自动编码和部分自回归语言建模任务，并通过自我注意力掩码和位置嵌入来避免冗余计算，在自然语言理解和生成任务方面取得了新的最先进的结果。

Feb, 2020

中途相遇：一种新的预训练范式

本文提出了一种新的预训练范例，采用双向推理和训练效率优化技术，以提高语言模型在数据填充任务中的能力并展开大量编程和自然语言实验取得优异成果。

Mar, 2023

用于推理高效 LLMs 的串联变压器

使用 Tandem transformers 架构，通过将小型自回归模型与以块模式操作的大型模型结合，以提高预测准确性并加快推理速度。在预训练数据集上，Tandem 模型显示出对下一个标记预测准确性的 3.3％改进，相比于性能相当的 PaLM2-Otter 模型，速度提升了 1.16 倍，同时在维持相同下游任务准确性的前提下，通过将 Tandem 模型引入到推测解码框架中，以实现大幅加速（比使用单独的 PaLM2-Gecko 模型快约 1.14 倍）。

Feb, 2024

针对希伯来语自然语言处理的多语言序列到序列模型

使用序列生成结构的多语言模型能够更好的处理像希伯来语这样的形态丰富语言，从而提高希伯来语自然语言处理，与以往的编码器结构的预训练模型相比，取得了显著改善。

Dec, 2022

重新审视简单的神经概率语言模型

本文主要通过对比分析神经概率语言模型和 Transformer 模型的特点，提出使用 NPLM 的本地连接层替换 Transformer 的第一自注意层，从而在三个单词级语言建模数据集上获得小而一致的困惑度降低。

Apr, 2021

基于集合的提示：可证明解决语言模型的序列依赖问题

这篇论文提出了一种技术，可以确保生成式语言模型在给定的子序列集合上不受顺序相关性的影响，从而消除顺序相关性。结果表明，该方法对预期的准确性影响较小，而且可以应用于任何基于 Transformer 的大语料库模型，对文本生成没有影响，进一步讨论了通过修改输入表示可以获得其他强大的 LLM 性能保证的可能性。

Jun, 2024

PERT: 使用排列语言模型对 BERT 进行预训练

本文提出了一种新的预训练语言模型 (PERT)，它是一种自动编码模型，使用排列语言模型技术进行训练，并应用全词遮盖和 N-gram 遮盖以提高其性能。实验结果表明，PERT 可以在某些任务上比其他相似模型有更好的性能表现。

Mar, 2022

使用遗忘因果语言模型改进少样本学习和微调的性能

本文提出的遗忘因果掩码（Forgetful Causal Masking，FCM）和 T-FCM 技术可以显著提高语言模型（如 PaLM）的性能，是一种简单的技术，通过遮盖随机选择的过去标记来执行下一个标记预测任务，从而提高下游语言理解任务的学习表示质量。

Oct, 2022

利用语言模型生成训练数据：走向零样本语言理解

本文提出了一种简单的方法，使用预训练语言模型 (Pretrained language models) 进行全零样本学习 (zero-shot learning) 自然语言理解任务 (NLU tasks)。该方法使用单向和双向 PLMs 生成和训练数据，其中训练数据是使用提示 (prompts) 引导的类别条件文本。使用这种方法，在 GLUE 数据集的七个分类任务中取得了强劲的表现 (例如在 MNLI-m/mm 上的 72.3/73.8，以及在 SST-2 上的 92.8)，相对于零样本提示方法，甚至实现了与使用每类 32 个训练样本的强有力的少样本方法相当的结果。同时，采用了标签平滑和时间模型的融合技术以达到更好的泛化和稳定性。

Feb, 2022