Apr, 2024

评估次词标记化:外语次词组合与 OOV 泛化挑战

TL;DR我们提出了一种联合内在 - 外在评估框架用于子词切分,通过 UniMorph Labeller 工具对子词切分进行内在评估,将其分类为形态还是外语;然后通过 Out-of-Vocabulary Generalization Challenge 1.0 基准进行外在评估,包括三个新指定的下游文本分类任务;我们的实证研究发现,UniMorph Labeller 的准确率达到了 98%;而在所有语言模型(包括 ALBERT、BERT、RoBERTa 和 DeBERTa)中,与形态切分相比,外语切分导致了更差的泛化能力,影响了词义的语义组合性。