掩蔽语言模型评分
该论文提出了一种适用于遮蔽语言模型的评估方法,该方法通过遮蔽目标词汇和目标词汇右侧的所有词汇来计算伪对数似然分数,并表明该方法优于原始的伪对数似然方法和一种遮蔽单词内词汇的伪对数似然方法,并且选择适当的评分指标对于评估一个语言模型的性能很重要。
May, 2023
本文提出了一种称为 Pseudo-Masked Language Model(PMLM)的新训练程序,用于预训练统一的语言模型以处理自动编码和部分自回归语言建模任务,并通过自我注意力掩码和位置嵌入来避免冗余计算,在自然语言理解和生成任务方面取得了新的最先进的结果。
Feb, 2020
本文提出了一种新的预训练语言模型 (PERT),它是一种自动编码模型,使用排列语言模型技术进行训练,并应用全词遮盖和 N-gram 遮盖以提高其性能。实验结果表明,PERT 可以在某些任务上比其他相似模型有更好的性能表现。
Mar, 2022
我们通过将伪对数似然(PLL)得分集表示为高斯分布,并使用 KL 散度和 JS 散度构建评估措施,以评估刻板化和反刻板化 PLL 得分的分布,发现我们提出的措施在公开可用的数据集 StereoSet(SS)和 CrowS-Pairs(CP)上显示出显著的鲁棒性和可解释性。
Jan, 2024
本研究将大型语言模型(如 GPT-2, BERT, RoBERTa)应用于 ASR N-best rescoring,并将其与竞争性高、接近最新技术水平的 ASR 系统相结合。通过实验发现大型语言模型的双向性、预训练、领域内微调和上下文增强对 ASR 性能有显著改善作用,而词汇分析揭示了这些组件如何对 ASR 性能贡献。
Apr, 2022
本研究调查了预先训练的语言模型在自动语音识别中的潜在用途,对比了大规模文本抽样和概率转换的应用。在八个特定领域的语料库中,发现采样的近似方法支持使用,插值与大规模文本语料库一起使用对比基线三元组能使测试困惑度提高 15%,我们引入了一种有限制的词汇解码方法,这将进一步提高 5%的改进。
Jun, 2023
本文探讨基于预训练语言模型的文本特征抽取中,标准随机掩码策略会导致高频词汇偏见和罕见词汇表示学习困难的问题,并提出了两个简单有效的基于 token 频率和训练损失的加权采样策略,以解决此问题,并在 BERT 模型上验证,即 Weighted-Sampled BERT (WSBERT),进一步将其 Fine-tuning 于 GLUE 基准上并探讨它如何提高 token 嵌入的性能。
Feb, 2023
在预训练过程中追加 [MASK] 可以降低较早层的序列长度,从而在减少计算预算的前提下,提高 RoBERTa 模型的预训练效率,同时在 GLUE 基准测试中表现更好。
Nov, 2022
本研究通过探索不同时间阶段掩码策略方式,发现固定掩码比率和掩码内容是无法实现最佳效果的。因此,提出了两种自适应掩码策略,通过不同的训练阶段来调整掩码比率和掩码内容以提高模型的性能,并在下游任务中进行验证。该研究的工作是关于时间相关掩码策略对预训练模型的影响的开拓性研究,让掩码比率和掩码内容如何影响 MLM 预训练得到了更好的理解。
Aug, 2022