ACLMar, 2022

BPE 与形态分割:关于四种多合成语言机器翻译的个案研究

TL;DR本文探究了针对四种多合成语言(Nahuatl,Raramuri,Shipibo-Konibo 和 Wixarika)的一系列监督式和非监督式的词形分割方法,并将词形分割方法与字节对编码(BPEs)进行比较,发现在翻译到和从西班牙语的所有语言对中,除了 Nahuatl 外,非监督式的词形分割算法一直表现优异,而监督式的方法在机器翻译挑战中表现不佳。最后,我们为 Raramuri 和 Shipibo-Konibo 捐献了两个新的词形分割数据集,以及一个 Raramuri - 西班牙语平行语料库。