EMNLPOct, 2020

应对规范分割的低资源挑战

TL;DR本文探讨了在训练数据有限的情况下,如何将单词分割为标准化的语素,提出了两种新的模型:LSTM 指针生成器和带有硬单调注意力的序列到序列模型,并在德语、英语、印度尼西亚语、波波卢卡语和特佩瓦语进行了实验。结果显示,在低资源情境下,这些新颖的方法比现有方法在所有语言上的准确度都高出 11.4%。然而,在真正的低资源语言波波卢卡语和特佩瓦语中,最好的模型仅获得了 37.4% 和 28.4% 的准确度,因此我们总结出标准化分割仍然是低资源语言中的一个具有挑战性的任务。