Mar, 2024

不同的分词方法在西班牙语数字协议中的性能相当

TL;DR语言模型标记化与性能之间的关系是一个开放的研究领域。我们研究了不同标记化方案如何影响西班牙语复数的数一致性。我们发现,形态对齐标记化与其他标记化方案的表现相似,即使在对训练过程中不会进行这种标记化的单词人工引导下。我们还进行了探索性分析,显示了不同复数标记化的语言模型嵌入在嵌入空间中具有类似的分布,最大化区分单数名词和复数名词的嵌入轴线。我们的结果表明,形态对齐标记化是一种可行的标记化方法,现有模型已经对一些形态模式进行了泛化。然而,我们的结果表明形态标记化并不是性能的严格要求。