EMNLPOct, 2022

最大化利用少量反事实增强情感分类鲁棒性

TL;DR针对文本分类任务中的模型过度依赖模式数据的问题,本文提出了一种新的解决方案,使用编码向量空间的自动生成机制减少新数据生成的人工成本,只需对原始训练数据的一小部分(例如 1%)进行注释即可获得明显的准确性改进。实验证明,该方法对情感分类有效,并在使用 IMDb 数据进行训练和 Amazon、SemEval 和 Yelp 等其他数据集进行 OOD 测试时,仅添加 1%手动反事实数据即可获得 + 3%的准确性提升,相比于添加 100%的训练样本和其他反事实方法比较,准确性提高了 1.3%。