Nov, 2022

通过预测语言模式进行跨语言代码混合数据增强

TL;DR本文研究围绕语内码混杂问题,提出了多种合成混杂数据方法,在各种数量的标注黄金数据中,在下游情感分析任务上表现出色。最重要的是,我们的方法表明,用定量掩码替换矩阵语言句子的部分内容可以显著提高分类准确性,这激发了对码混杂现象的进一步语言学洞察。我们在各种低资源和跨语言设置中测试了数据增强方法,在极度缺乏英马拉雅语的数据集上获得了高达 7.73%的相对改进。最后,我们提出了一种语言不可知的 SCM 算法,对低资源语言非常有用。