Sep, 2021

分析使用字符级别翻译处理稀疏和嘈杂数据集的方法

TL;DR本文分析了基于字符级别机器翻译模型在使用基于中间转换的翻译中的应用,特别是在稀疏和嘈杂的数据集,例如众包电影字幕上。我们发现此类模型可以将未翻译的单词数量减少超过 40%,在有限的训练数据情况下尤其具有竞争力(2-3 BLEU 分的提高)。我们研究了字符对齐,短语表过滤,双语数据大小以及中间转换语言选择对翻译质量的影响。我们进一步比较级联翻译模型和通过多个中间转换的合成训练数据的使用,我们发现后者更好地工作。最后,我们证明了无论是词 Bleu 还是字符 Bleu 都没有完全与人类判断相符,这是由于 Bleu 对长度的敏感性所致。