May, 2023

用于 MLM 预训练的动态掩码比率调度

TL;DR通过动态调度遮蔽率,从 30%线性减少到 15%,与原始 BERT 模型的 15%固定遮蔽率相比,我们发现可以提高 BERT-base 的平均 GLUE 准确度 0.46%,从而改善遮蔽语言模型的质量并在预训练中实现高达 1.89 倍的加速。