ACLFeb, 2022

在掩码语言建模中,是否应当掩盖 15% 的词语?

TL;DR本研究旨在重新审视 MLM 预训练过程中重要的掩码选项,并指出在不同的模型大小和掩码策略下,15% 的掩码率并不是普遍最优的选择。我们发现,对于 BERT-large 规模的模型,使用 40% 的掩码比 15% 更优,即使使用极高的掩码率 80%,也可以在保持绝大部分语言探测任务准确性的情况下,以 95% 的模型微调性能获得极佳的优化效果。此外,我们进一步研究了掩码率和策略之间的相互作用,并认为增加掩码率有两个不同的作用:一方面,它会导致更多的数据扰动,使得预测任务更加困难;另一方面,它能够使更多的预测可用于优化,从而获得更佳的结果。最后,本研究重新审视了 BERT 的 80-10-10 扰动策略。通过以上研究,我们对 MLM 预训练过程有了更好的理解。