Nov, 2023

使用锚点和一系列相关语言的多语言词嵌入:面向低资源语言

TL;DR通过一种基于语言链的新方法构建多语言词嵌入(MWEs),该方法通过中间相关语言弥合远源和目标的差距。我们通过在语言链中逐个添加每种语言,从资源丰富的源语言开始,构建 MWEs。我们将半联合双语方法扩展到多种语言,以消除以前工作的主要弱点,即独立训练的单语词嵌入,并使目标语言围绕多语言空间进行锚定。我们在涉及 4 个非常低资源(<5M 令牌)和 4 个适度低资源(<50M)目标语言的 4 个语言家族的双语词典感应中评估了我们的方法,显示了两个类别的改进性能。此外,我们的分析揭示了中间语言的高质量嵌入的重要性,以及利用多语言空间中所有语言的锚点的重要性。