本文提出了一种有效的预训练语言模型利用方法,其中利用二进制选择性蒙版来代替微调的方法对预训练权重进行修改。对 Bert 和 Roberta 模型进行掩模和微调的广泛评估表明,我们的掩模方案在执行多个任务时具有可比性的性能,却具有更小的内存占用。通过本文内在评估,我们展示了由掩模语言模型计算的表征编码了解决下游任务所需的信息。分析损失景观,我们展示了掩蔽和微调能够生成几乎具有恒定测试准确度的线段相连的值,证实了掩蔽是微调的有效替代方法。
研究预训练语言模型如何通过无监督学习中的遮盖和预测标记产生语言结构和改进下游性能;理论认为,预训练语言模型通过遮盖具有暗示下游任务的填空作用,获得有用的归纳偏见。本文构建了类似填空的掩码,并用于三个不同的分类数据集,证明了预训练模型的绝大部分性能提升来自没有与词典关联的通用掩码;我们演示了掩码语言模型(MLM)目标与学习图形模型中的统计依赖的现有方法之间的对应关系,并利用这一点派生出一种提取该模型中学习到的统计依赖的方法,这些依赖以句法结构的形式编码。通过对暗示的统计依赖结构进行最小生成树的无监督解析评估,在无监督解析方面,简单地形成最小生成树优于经典的无监督解析方法(58.74 vs. 55.91 UUAS)