EMNLPSep, 2020

神经机器翻译的代码切换预训练

TL;DR提出了一种新的预训练方法 Code-Switching Pre-training(CSP),它通过利用源语言和目标语言之间的跨语言对齐信息来预先训练神经机器翻译模型,该方法通过无监督的词嵌入映射词典识别源语言和目标语言之间的单词替换,克服了传统模型的随机屏蔽单词的缺点。实验结果表明,该方法在无监督和有监督的机器翻译任务上都取得了显著提高。