May, 2023
多语言语言建模中的分词影响:评估跨语言词汇分配和重叠
Tokenization Impacts Multilingual Language Modeling: Assessing
Vocabulary Allocation and Overlap Across Languages
TL;DR本文提出新的标准以评估子词符号化器中的词汇表示质量和词汇重叠度,并发现跨语言单词表的重叠实际上可能对某些下游任务(如POS、依赖树标记)产生负面影响,而在命名实体识别和句子级任务(如跨语言检索、NLI)中分享词汇表是有益的。此外,本文还观察到多语种语言模型中特定语言标记的覆盖范围显著影响单词级任务。因此,我们为未来的模型开发人员提供了详细的指导,以选择最适合他们特定应用程序的符号化器。