EMNLPOct, 2020

神经掩码生成器:学习生成适应性词掩码以进行语言模型适应

TL;DR本文提出一种基于强化学习的框架,使用自适应的掩码技术用于自我监督预训练,以有效地将语言模型适应到指定目标任务,例如问答。我们在几个问答和文本分类数据集上使用 BERT 和 DistilBERT 作为语言模型,使用离策略演员 - 评论家,熵正则化和经验回放进行强化学习,并使用能考虑文本中词汇相对重要性的基于 Transformer 的策略网络进行学习。使用所提出的神经掩码生成器(NMG)自动生成优化的自适应掩码,比基于规则的掩码策略更优秀。