EMNLPAug, 2018

规模理解后向翻译

TL;DR使用单语数据生成目标语反向翻译的有效方法能够提高神经机器翻译质量。本研究比较了几种方法生成合成源句子的效果,发现使用采样或噪声束搜索的反向翻译方法效果最好,并证实这种合成数据的训练信号强于束搜索或贪婪搜索的数据,同时也比较了它们与真实的平行语料库的效果,并研究了不同领域对它们的影响。最终,将这种方法扩展到数亿条单语数据,获得了 35 BLEU 的 WMT'14 英德测试集上的最新记录。