EMNLPSep, 2021
低资源神经机器翻译中数据增强的再思考:多任务学习方法
Rethinking Data Augmentation for Low-Resource Neural Machine Translation: A Multi-Task Learning Approach
Víctor M. Sánchez-Cartagena, Miquel Esplà-Gomis, Juan Antonio Pérez-Ortiz, Felipe Sánchez-Martínez
TL;DR本文提出了一种基于多任务学习的数据增强方法,通过将目标句子的顺序进行颠倒等操作,产生不流畅的目标句子,作为辅助任务使用以加强编码器和强制解码器更多地关注源表示。在六个低资源翻译任务上的实验证明,该方法相对于以扩展经验数据分布为目标的传统数据增强方法,可以在提高翻译质量的同时提高翻译系统的鲁棒性和抗干扰性。