掩蔽语言模型评分

ACLOct, 2019

Masked Language Model Scoring

Julian Salazar, Davis Liang, Toan Q. Nguyen, Katrin Kirchhoff

TL;DR通过掩码语言模型的伪对数似然得分，我们证明该方法在各种任务中优于自回归语言模型。RoBERTa 减小端到端 LibriSpeech 模型的 WER，同时增加低资源翻译的 BLEU 得分，这个成功要归功于伪对数似然得分的无监督表达，而不具有从左到右的偏见。

Abstract

Pretrained masked language models (MLMs) require finetuning for most NLP tasks. Instead, we evaluate MLMs out of the box via their pseudo-log-likelihood scores (PLLs), which are computed by masking tokens one by one. We show that PLLs outperform scores from autoregressive language models like GPT-2 in a variety of tasks. By rescoring →

masked language model pseudo-log-likelihood scores linguistic acceptability asr nmt

发现论文，激发创造

一个更好的掩码语言模型评分方法

该论文提出了一种适用于遮蔽语言模型的评估方法，该方法通过遮蔽目标词汇和目标词汇右侧的所有词汇来计算伪对数似然分数，并表明该方法优于原始的伪对数似然方法和一种遮蔽单词内词汇的伪对数似然方法，并且选择适当的评分指标对于评估一个语言模型的性能很重要。

May, 2023

一种具有概率掩码的语言模型，能够按任意字序进行自回归生成

本文提出了一种基于掩模模型的概率掩模方案（PMLM），它支持按任意顺序生成文本，并在下游自然语言理解任务上超越了 BERT。

Apr, 2020

UniLMv2：伪掩码统一语言模型预训练

本文提出了一种称为 Pseudo-Masked Language Model（PMLM）的新训练程序，用于预训练统一的语言模型以处理自动编码和部分自回归语言建模任务，并通过自我注意力掩码和位置嵌入来避免冗余计算，在自然语言理解和生成任务方面取得了新的最先进的结果。

Feb, 2020

PERT: 使用排列语言模型对 BERT 进行预训练

本文提出了一种新的预训练语言模型 (PERT)，它是一种自动编码模型，使用排列语言模型技术进行训练，并应用全词遮盖和 N-gram 遮盖以提高其性能。实验结果表明，PERT 可以在某些任务上比其他相似模型有更好的性能表现。

Mar, 2022

评估掩码语言模型中的社会偏见的鲁棒评估度量

我们通过将伪对数似然（PLL）得分集表示为高斯分布，并使用 KL 散度和 JS 散度构建评估措施，以评估刻板化和反刻板化 PLL 得分的分布，发现我们提出的措施在公开可用的数据集 StereoSet（SS）和 CrowS-Pairs（CP）上显示出显著的鲁棒性和可解释性。

Jan, 2024

大规模语言模型重评分对竞争性 ASR 系统的影响与分析

本研究将大型语言模型（如 GPT-2, BERT, RoBERTa）应用于 ASR N-best rescoring，并将其与竞争性高、接近最新技术水平的 ASR 系统相结合。通过实验发现大型语言模型的双向性、预训练、领域内微调和上下文增强对 ASR 性能有显著改善作用，而词汇分析揭示了这些组件如何对 ASR 性能贡献。

Apr, 2022

关于预训练语言模型 N-gram 逼近的研究

本研究调查了预先训练的语言模型在自动语音识别中的潜在用途，对比了大规模文本抽样和概率转换的应用。在八个特定领域的语料库中，发现采样的近似方法支持使用，插值与大规模文本语料库一起使用对比基线三元组能使测试困惑度提高 15％，我们引入了一种有限制的词汇解码方法，这将进一步提高 5％的改进。

Jun, 2023

加权采样用于掩码语言建模

本文探讨基于预训练语言模型的文本特征抽取中，标准随机掩码策略会导致高频词汇偏见和罕见词汇表示学习困难的问题，并提出了两个简单有效的基于 token 频率和训练损失的加权采样策略，以解决此问题，并在 BERT 模型上验证，即 Weighted-Sampled BERT (WSBERT)，进一步将其 Fine-tuning 于 GLUE 基准上并探讨它如何提高 token 嵌入的性能。

Feb, 2023

面具更多，面具更晚：通过分解 [MASK] 令牌实现有效的遮蔽语言模型预训练

在预训练过程中追加 [MASK] 可以降低较早层的序列长度，从而在减少计算预算的前提下，提高 RoBERTa 模型的预训练效率，同时在 GLUE 基准测试中表现更好。

Nov, 2022

为了更好的语言模型预训练，学习更好的掩码技术

本研究通过探索不同时间阶段掩码策略方式，发现固定掩码比率和掩码内容是无法实现最佳效果的。因此，提出了两种自适应掩码策略，通过不同的训练阶段来调整掩码比率和掩码内容以提高模型的性能，并在下游任务中进行验证。该研究的工作是关于时间相关掩码策略对预训练模型的影响的开拓性研究，让掩码比率和掩码内容如何影响 MLM 预训练得到了更好的理解。

Aug, 2022