低资源语言的同构跨语言嵌入
本论文研究无监督的跨语言词向量嵌入方法,发现这些方法在需要将资源匮乏和远距离语言进行跨语言词向量嵌入时难以产生有意义的结果,表现不如弱监督的方法。作者呼吁重新审视无监督 CLWE 方法的主要动机。
Sep, 2019
本文提出了一种基于曼哈顿距离的后处理方法来提高跨语言词向量的质量,并在十种不同的语言和语料库上进行了广泛的实验证明该方法可以提高词向量在双语词典归纳和自然语言推理任务中的性能。
Apr, 2021
提出了一种使用非监督机器翻译生成的伪平行语料库以优化跨语言词嵌入的无监督映射方法的新思路,改进了现有方法,并通过详细分析证明伪数据增强方法特别适用于基于映射的跨语言词嵌入任务。
May, 2020
提出了一种新的构建双语词向量嵌入的方法,该方法利用高资源源语言的向量空间作为训练低资源目标语言嵌入空间的起点,并通过使用源向量作为锚点,在训练过程中自动对齐向量空间,结果表明该方法不仅提高了双语词向量的质量和双语词汇词典归纳的性能,而且提高了目标语言的单语词相似性。
Oct, 2020
通过迭代正则化方法,使得非同构语言 pairs 的单语词嵌入向量单位化和对齐,从而提高跨语言词嵌入的翻译准确度,特别是在英文 - 日文 pairs 中,测试准确性从 2% 提高到 44%。
Jun, 2019
跨语言句子嵌入领域最近取得了很大的进展,但是由于平行语料的稀缺性,对于低资源语言的研究相对滞后。本文表明当前模型中低资源语言的跨语言词表示与高资源语言的对齐程度明显不足。为了解决这个问题,我们引入了一种新的框架,通过使用现成的词对齐模型,显式地对英语和八种低资源语言之间的单词进行对齐。该框架包含三个主要的训练目标:对齐的单词预测、单词翻译排序,以及广泛使用的翻译排序。我们通过在双语检索任务上进行实验证明了我们的方法,该方法在低资源语言的句子嵌入上取得了显著的改进。此外,所提出模型在高资源语言上更广泛任务的竞争性表现凸显了其实用性。
Apr, 2024
通过一种基于语言链的新方法构建多语言词嵌入(MWEs),该方法通过中间相关语言弥合远源和目标的差距。我们通过在语言链中逐个添加每种语言,从资源丰富的源语言开始,构建 MWEs。我们将半联合双语方法扩展到多种语言,以消除以前工作的主要弱点,即独立训练的单语词嵌入,并使目标语言围绕多语言空间进行锚定。我们在涉及 4 个非常低资源(<5M 令牌)和 4 个适度低资源(<50M)目标语言的 4 个语言家族的双语词典感应中评估了我们的方法,显示了两个类别的改进性能。此外,我们的分析揭示了中间语言的高质量嵌入的重要性,以及利用多语言空间中所有语言的锚点的重要性。
Nov, 2023
本文提出了一种基于无监督学习的算法,通过分布匹配和最小化回译损失来优化两种语言单词嵌入空间之间的转换函数,使用神经网络计算 Sinkhorn 距离评估性能并在跨语言词汇相似度预测和双语词汇归纳等任务中具有强大的性能。
Sep, 2018
本文提出了 BLICEr(BLI with Cross-Encoder Reranking)方法,是一个半监督的后处理重排序方法,用于任意预先计算过的 CLWE 空间,取得了基于两个标准 BLI 基准的新的最先进结果,涵盖了各种不同语言的宽谱。
Oct, 2022