Feb, 2023
汉字级别翻译是否值得等待?字符级别与子词级别机器翻译模型的广泛比较
Are Character-level Translations Worth the Wait? An Extensive Comparison
of Character- and Subword-level Models for Machine Translation
TL;DR通过对多种语言和实验条件下的状态-of-the-art字符-和子词级预训模型(ByT5和mT5)进行了广泛的比较,这项工作展示了前者不仅在翻译方面有效,并且在某些情况下比子词模型表现更好,特别是在训练数据有限的情况下。字符模型唯一的缺点似乎是效率低(至少慢4倍的训练和推理时间)。进一步的分析表明,字符模型能够隐含地在词或子词级别上进行翻译,从而抵消了字符级别操作的一个主要潜在弱点。