Oct, 2021

为什么人们不使用基于字符级的机器翻译?

TL;DR通过文献和实证调查,我们批判性地评估了机器翻译(MT)中基于字符级建模的最新技术发展现状。尽管文献中有证据表明,与子词级方法相比,字符级系统相当可靠,但在竞争性的WMT比赛中几乎不被使用。我们的实证研究表明,尽管在自然语言处理的字符级建模方面取得了一些创新,但字符级MT系统仍然难以与基于子词的系统相匹配,也没有更好的领域稳健性或更好的形态概括性。但是,我们能够表现出对源端噪声的稳健性,并且在解码时随着Beam size的增加,翻译质量不会降低。