ACLJun, 2024

神经机器翻译的确定性可逆数据增强

TL;DR确定性可逆数据增强(DRDA)是一种简单但有效的数据增强方法,用于神经机器翻译,通过采用确定性分段和可逆操作生成多粒度子词表示,并通过多视角技术将它们拉近,无需额外的语料库或模型变更,DRDA 在几个翻译任务中优于强基线模型(Transformer),在嘈杂、资源匮乏和跨领域数据集中表现出良好的鲁棒性,达到多达 4.3 BLEU 增益。