InforMask: 语言模型预训练的无监督信息遮蔽

Oct, 2022

InforMask: 语言模型预训练的无监督信息遮蔽

InforMask: Unsupervised Informative Masking for Language Model Pretraining

Nafis Sadeq, Canwen Xu, Julian McAuley

TL;DR本文提出了 InforMask 方法，使用点互信息（PMI）来选择最具信息量的 tokens 进行蒙版，并进行两种优化以提高效率，该方法在 LAMA 和 SQuAD v1、v2 基准测试上明显优于随机蒙版和以前提出的蒙版策略。

Abstract

masked language modeling is widely used for pretraining large language models for natural language understanding (nlu). However, random masking is suboptimal, allocating an equal masking rate for all tokens. In t

masked language modeling nlu informask pmi efficiency

发现论文，激发创造

基于 PMI 的相关跨度掩码

通过对点对互信息的概念提出了 PMI-Masking，该结构代替了以往不合理的随机掩码方法，实验结果表明在预训练的效率和下游任务性能上有所提高

Oct, 2020

为了更好的语言模型预训练，学习更好的掩码技术

本研究通过探索不同时间阶段掩码策略方式，发现固定掩码比率和掩码内容是无法实现最佳效果的。因此，提出了两种自适应掩码策略，通过不同的训练阶段来调整掩码比率和掩码内容以提高模型的性能，并在下游任务中进行验证。该研究的工作是关于时间相关掩码策略对预训练模型的影响的开拓性研究，让掩码比率和掩码内容如何影响 MLM 预训练得到了更好的理解。

Aug, 2022

UniLMv2：伪掩码统一语言模型预训练

本文提出了一种称为 Pseudo-Masked Language Model（PMLM）的新训练程序，用于预训练统一的语言模型以处理自动编码和部分自回归语言建模任务，并通过自我注意力掩码和位置嵌入来避免冗余计算，在自然语言理解和生成任务方面取得了新的最先进的结果。

Feb, 2020

UniMASK: 顺序决策问题中的统一推理

本研究介绍了一种名为 UniMASK 的框架，利用序列掩蔽的方式，提供了一种统一的方式来指定可以用于多种不同序列决策任务的模型。经过微调后，我们的 UniMASK 模型能够在许多任务上表现非常好，甚至比单任务模型表现更好。

Nov, 2022

Train No Evil: 面向任务导向的有选择掩码预训练

本文提出了一种三阶段的预训练模型，通过加入任务引导的预训练阶段和选择性掩蔽来学习特定领域和任务模式，实验结果表明，该模型在情感分析任务中可以达到与更少计算成本相当甚至更好的性能。

Apr, 2020

掩蔽：预训练语言模型的有效替代方法

本文提出了一种有效的预训练语言模型利用方法，其中利用二进制选择性蒙版来代替微调的方法对预训练权重进行修改。对 Bert 和 Roberta 模型进行掩模和微调的广泛评估表明，我们的掩模方案在执行多个任务时具有可比性的性能，却具有更小的内存占用。通过本文内在评估，我们展示了由掩模语言模型计算的表征编码了解决下游任务所需的信息。分析损失景观，我们展示了掩蔽和微调能够生成几乎具有恒定测试准确度的线段相连的值，证实了掩蔽是微调的有效替代方法。

Apr, 2020

无监督方式提升语言模型中的事实知识

本研究提出一种影响掩蔽语言模型预训练的方法，使其在无监督的方式下优先选择有信息的词汇，实验证明此方法大大提高了预训练语言模型在诸如事实回忆、问题回答、情感分析和自然语言推理等知识密集型任务中的表现。

Apr, 2023

视觉语言领域数据效率掩码语言建模

本文研究在跨模态预训练中使用遮蔽语言建模（Masked Language Modeling，简称 MLM）的一些问题，提出了一些针对这些问题的替代遮蔽策略，在 LXMERT 模型预训练时，我们的替代策略始终优于原始遮蔽策略，特别是在低资源设置下，我们的预训练方法显著优于基准模型，并且通过对影像对象的特定标记任务的评估，我们的结果和分析表明，该方法允许更好地利用训练数据。

Sep, 2021

掩蔽语言模型的归纳偏好：从统计学到句法依赖

研究预训练语言模型如何通过无监督学习中的遮盖和预测标记产生语言结构和改进下游性能；理论认为，预训练语言模型通过遮盖具有暗示下游任务的填空作用，获得有用的归纳偏见。本文构建了类似填空的掩码，并用于三个不同的分类数据集，证明了预训练模型的绝大部分性能提升来自没有与词典关联的通用掩码；我们演示了掩码语言模型（MLM）目标与学习图形模型中的统计依赖的现有方法之间的对应关系，并利用这一点派生出一种提取该模型中学习到的统计依赖的方法，这些依赖以句法结构的形式编码。通过对暗示的统计依赖结构进行最小生成树的无监督解析评估，在无监督解析方面，简单地形成最小生成树优于经典的无监督解析方法（58.74 vs. 55.91 UUAS）

Apr, 2021

专利领域的基于语言学知识的掩码表示学习

该研究提出了一种基于语言学启发的遮蔽方法，称为 LIM，该方法可用于域适应的预训练模型，以便在专利语言领域提供更好的表示。通过在两个不同的语言模型上评估专利语言的领域适应表示的性能，以专利 IPC 分类和相似性匹配作为后续任务，该研究证明了该方法的改进效果，并公开了源代码和域适应预训练专利语言模型。

Jun, 2021