P$^3$LM: 基于概率排列的先知语言建模生成预训练
本文提出了一种称为 Pseudo-Masked Language Model(PMLM)的新训练程序,用于预训练统一的语言模型以处理自动编码和部分自回归语言建模任务,并通过自我注意力掩码和位置嵌入来避免冗余计算,在自然语言理解和生成任务方面取得了新的最先进的结果。
Feb, 2020
使用 Tandem transformers 架构,通过将小型自回归模型与以块模式操作的大型模型结合,以提高预测准确性并加快推理速度。在预训练数据集上,Tandem 模型显示出对下一个标记预测准确性的 3.3%改进,相比于性能相当的 PaLM2-Otter 模型,速度提升了 1.16 倍,同时在维持相同下游任务准确性的前提下,通过将 Tandem 模型引入到推测解码框架中,以实现大幅加速(比使用单独的 PaLM2-Gecko 模型快约 1.14 倍)。
Feb, 2024
使用序列生成结构的多语言模型能够更好的处理像希伯来语这样的形态丰富语言,从而提高希伯来语自然语言处理,与以往的编码器结构的预训练模型相比,取得了显著改善。
Dec, 2022
本文主要通过对比分析神经概率语言模型和 Transformer 模型的特点,提出使用 NPLM 的本地连接层替换 Transformer 的第一自注意层,从而在三个单词级语言建模数据集上获得小而一致的困惑度降低。
Apr, 2021
这篇论文提出了一种技术,可以确保生成式语言模型在给定的子序列集合上不受顺序相关性的影响,从而消除顺序相关性。结果表明,该方法对预期的准确性影响较小,而且可以应用于任何基于 Transformer 的大语料库模型,对文本生成没有影响,进一步讨论了通过修改输入表示可以获得其他强大的 LLM 性能保证的可能性。
Jun, 2024
本文提出了一种新的预训练语言模型 (PERT),它是一种自动编码模型,使用排列语言模型技术进行训练,并应用全词遮盖和 N-gram 遮盖以提高其性能。实验结果表明,PERT 可以在某些任务上比其他相似模型有更好的性能表现。
Mar, 2022
本文提出的遗忘因果掩码(Forgetful Causal Masking,FCM)和 T-FCM 技术可以显著提高语言模型(如 PaLM)的性能,是一种简单的技术,通过遮盖随机选择的过去标记来执行下一个标记预测任务,从而提高下游语言理解任务的学习表示质量。
Oct, 2022
本文提出了一种简单的方法,使用预训练语言模型 (Pretrained language models) 进行全零样本学习 (zero-shot learning) 自然语言理解任务 (NLU tasks)。该方法使用单向和双向 PLMs 生成和训练数据,其中训练数据是使用提示 (prompts) 引导的类别条件文本。使用这种方法,在 GLUE 数据集的七个分类任务中取得了强劲的表现 (例如在 MNLI-m/mm 上的 72.3/73.8,以及在 SST-2 上的 92.8),相对于零样本提示方法,甚至实现了与使用每类 32 个训练样本的强有力的少样本方法相当的结果。同时,采用了标签平滑和时间模型的融合技术以达到更好的泛化和稳定性。
Feb, 2022