EMNLPSep, 2021

基于多语数据选择的神经机器翻译领域通用无监督适应

TL;DR本文针对神经机器翻译中的无监督领域自适应问题,提出一种跨语料库数据选择方法,通过对多语言 BERT 进行对比学习,实现源语言和目标语言之间的表示对齐,从而实现零样本领域分类器的可转移性,并且通过联合学习翻译任务和领域区分任务来适应新领域。我们在五个不同的领域和三种语言对的神经机器翻译上进行了跨语料库数据选择方法的评估,并在 COVID-19 疫情实时翻译中进行了应用验证, 实验结果表明,我们提出的方法相对于基线方法的 BLEU 指标得分提高了 1.5 个百分点。