Apr, 2024

评估次词标记化:外语次词组合与OOV泛化挑战

TL;DR我们提出了一种联合内在-外在评估框架用于子词切分,通过UniMorph Labeller工具对子词切分进行内在评估,将其分类为形态还是外语;然后通过Out-of-Vocabulary Generalization Challenge 1.0基准进行外在评估,包括三个新指定的下游文本分类任务;我们的实证研究发现,UniMorph Labeller的准确率达到了98%;而在所有语言模型(包括ALBERT、BERT、RoBERTa和DeBERTa)中,与形态切分相比,外语切分导致了更差的泛化能力,影响了词义的语义组合性。