EMNLPJan, 2019

EDA: 文本分类性能提升的易用数据增强技术

TL;DR提出 EDA 方法来增强文本分类任务的性能,包括四种简单但强大的数据增强操作:同义词替换、随机插入、随机交换和随机删除,在五个文本分类任务中,展示了 EDA 对于卷积神经网络和循环神经网络性能提升的效果。EDA 特别适用于小型数据集。使用 EDA 方法在 50%可用的训练集上训练时,平均而言可以达到使用全部数据正常训练的准确性水平。此外,还进行了大量消融研究,并提供了实际使用的参数建议。