EMNLPOct, 2022

样式转移作为数据增强的案例研究:命名实体识别

TL;DR我们在英语中以命名实体识别任务为案例研究,探索样式迁移作为数据增强方法以增加低资源情境下的训练数据的大小和多样性。我们通过改变高资源域中的文本样式相关属性来生成合成数据进行训练,并设计一种受限的解码算法和一系列关键因素来选择数据以保证生成有效和连贯的数据。五种不同领域之间的实验和分析表明,我们的方法与当前最先进的数据增强方法相比可以显着改善结果。我们的方法是一种实际的数据稀缺性解决方案,并且我们预计它可应用于其他 NLP 任务。