EMNLPOct, 2022

P$^3$LM: 基于概率排列的先知语言建模生成预训练

TL;DR本文提出了一种名为 P3LM 的语言模型,通过学习生成排列顺序上的 token 和对应的未来 N 个 token,进一步加强了双向信息建模和长程相关性建模。在四个摘要数据集、两个问题生成数据集、一个对话问题回答数据集和一个对话回复数据集的广泛实验中,证明了 P3LM 在生成式预训练方法上具有最先进的结果。