InforMask: 语言模型预训练的无监督信息遮蔽
本研究通过探索不同时间阶段掩码策略方式,发现固定掩码比率和掩码内容是无法实现最佳效果的。因此,提出了两种自适应掩码策略,通过不同的训练阶段来调整掩码比率和掩码内容以提高模型的性能,并在下游任务中进行验证。该研究的工作是关于时间相关掩码策略对预训练模型的影响的开拓性研究,让掩码比率和掩码内容如何影响 MLM 预训练得到了更好的理解。
Aug, 2022
本文提出了一种称为 Pseudo-Masked Language Model(PMLM)的新训练程序,用于预训练统一的语言模型以处理自动编码和部分自回归语言建模任务,并通过自我注意力掩码和位置嵌入来避免冗余计算,在自然语言理解和生成任务方面取得了新的最先进的结果。
Feb, 2020
本研究介绍了一种名为 UniMASK 的框架,利用序列掩蔽的方式,提供了一种统一的方式来指定可以用于多种不同序列决策任务的模型。经过微调后,我们的 UniMASK 模型能够在许多任务上表现非常好,甚至比单任务模型表现更好。
Nov, 2022
本文提出了一种三阶段的预训练模型,通过加入任务引导的预训练阶段和选择性掩蔽来学习特定领域和任务模式,实验结果表明,该模型在情感分析任务中可以达到与更少计算成本相当甚至更好的性能。
Apr, 2020
本文提出了一种有效的预训练语言模型利用方法,其中利用二进制选择性蒙版来代替微调的方法对预训练权重进行修改。对 Bert 和 Roberta 模型进行掩模和微调的广泛评估表明,我们的掩模方案在执行多个任务时具有可比性的性能,却具有更小的内存占用。通过本文内在评估,我们展示了由掩模语言模型计算的表征编码了解决下游任务所需的信息。分析损失景观,我们展示了掩蔽和微调能够生成几乎具有恒定测试准确度的线段相连的值,证实了掩蔽是微调的有效替代方法。
Apr, 2020
本研究提出一种影响掩蔽语言模型预训练的方法,使其在无监督的方式下优先选择有信息的词汇,实验证明此方法大大提高了预训练语言模型在诸如事实回忆、问题回答、情感分析和自然语言推理等知识密集型任务中的表现。
Apr, 2023
本文研究在跨模态预训练中使用遮蔽语言建模(Masked Language Modeling,简称 MLM)的一些问题,提出了一些针对这些问题的替代遮蔽策略,在 LXMERT 模型预训练时,我们的替代策略始终优于原始遮蔽策略,特别是在低资源设置下,我们的预训练方法显著优于基准模型,并且通过对影像对象的特定标记任务的评估,我们的结果和分析表明,该方法允许更好地利用训练数据。
Sep, 2021
研究预训练语言模型如何通过无监督学习中的遮盖和预测标记产生语言结构和改进下游性能;理论认为,预训练语言模型通过遮盖具有暗示下游任务的填空作用,获得有用的归纳偏见。本文构建了类似填空的掩码,并用于三个不同的分类数据集,证明了预训练模型的绝大部分性能提升来自没有与词典关联的通用掩码;我们演示了掩码语言模型(MLM)目标与学习图形模型中的统计依赖的现有方法之间的对应关系,并利用这一点派生出一种提取该模型中学习到的统计依赖的方法,这些依赖以句法结构的形式编码。通过对暗示的统计依赖结构进行最小生成树的无监督解析评估,在无监督解析方面,简单地形成最小生成树优于经典的无监督解析方法(58.74 vs. 55.91 UUAS)
Apr, 2021
该研究提出了一种基于语言学启发的遮蔽方法,称为 LIM,该方法可用于域适应的预训练模型,以便在专利语言领域提供更好的表示。通过在两个不同的语言模型上评估专利语言的领域适应表示的性能,以专利 IPC 分类和相似性匹配作为后续任务,该研究证明了该方法的改进效果,并公开了源代码和域适应预训练专利语言模型。
Jun, 2021