Apr, 2021

无监督领域自适应语言建模

TL;DR本文中,我们探索了使用预训练的语言模型进行下游任务的无监督领域适应(UDA)。我们提出了UDALM,一种微调过程,使用混合分类和蒙面语言模型损失,可以以强健和样本高效的方式适应目标域分布。我们的实验表明,使用混合损失训练的模型的性能与可用目标数据的数量成比例,并且可以有效地用作UDA训练中的停止准则。此外,我们还讨论了A距离和目标误差之间的关系,并探索了域对抗训练方法的一些局限性。我们的方法在Amazon评论情感数据集的12个领域对上进行评估,得到了91.74%的准确率,比最先进技术提高了1.11%的绝对值。