Sep, 2021
基于多语数据选择的神经机器翻译领域通用无监督适应
Generalised Unsupervised Domain Adaptation of Neural Machine Translation
with Cross-Lingual Data Selection
TL;DR本文针对神经机器翻译中的无监督领域自适应问题,提出一种跨语料库数据选择方法,通过对多语言BERT进行对比学习,实现源语言和目标语言之间的表示对齐,从而实现零样本领域分类器的可转移性,并且通过联合学习翻译任务和领域区分任务来适应新领域。我们在五个不同的领域和三种语言对的神经机器翻译上进行了跨语料库数据选择方法的评估,并在COVID-19疫情实时翻译中进行了应用验证, 实验结果表明,我们提出的方法相对于基线方法的BLEU指标得分提高了1.5个百分点。