低资源语言的同构跨语言嵌入

ACLMar, 2022

Isomorphic Cross-lingual Embeddings for Low-Resource Languages

Sonal Sannigrahi, Jesse Read

TL;DR本论文提出了一种跨语言词嵌入学习框架，其综合利用相关高资源语言，以解决低资源语言跨语言表示学习中的几何结构相似度不足的问题，并通过双语词表感应和特征值相似性等多个语言对的实验验证，在新颖性和性能上均有所提升。

Abstract

cross-lingual word embeddings (CLWEs) are a key component to transfer linguistic information learnt from higher-resource settings into lower-resource ones. Recent research in cross-lingual representation learning has focused on →

cross-lingual word embeddings low-resource language offline mapping approaches joint training methods bilingual lexicon induction

发现论文，激发创造

我们是否真的需要完全无监督跨语言嵌入？

本论文研究无监督的跨语言词向量嵌入方法，发现这些方法在需要将资源匮乏和远距离语言进行跨语言词向量嵌入时难以产生有意义的结果，表现不如弱监督的方法。作者呼吁重新审视无监督 CLWE 方法的主要动机。

Sep, 2019

通过 L1 范数优化进行跨语言词嵌入细化

本文提出了一种基于曼哈顿距离的后处理方法来提高跨语言词向量的质量，并在十种不同的语言和语料库上进行了广泛的实验证明该方法可以提高词向量在双语词典归纳和自然语言推理任务中的性能。

Apr, 2021

无监督机器翻译数据增强改善跨语言词向量结构相似度

提出了一种使用非监督机器翻译生成的伪平行语料库以优化跨语言词嵌入的无监督映射方法的新思路，改进了现有方法，并通过详细分析证明伪数据增强方法特别适用于基于映射的跨语言词嵌入任务。

May, 2020

针对低资源语言的基于锚点的双语词嵌入

提出了一种新的构建双语词向量嵌入的方法，该方法利用高资源源语言的向量空间作为训练低资源目标语言嵌入空间的起点，并通过使用源向量作为锚点，在训练过程中自动对齐向量空间，结果表明该方法不仅提高了双语词向量的质量和双语词汇词典归纳的性能，而且提高了目标语言的单语词相似性。

Oct, 2020

女孩是猫娘还是少女？迭代规范化法实现非同构嵌入的跨语言对齐

通过迭代正则化方法，使得非同构语言 pairs 的单语词嵌入向量单位化和对齐，从而提高跨语言词嵌入的翻译准确度，特别是在英文 - 日文 pairs 中，测试准确性从 2% 提高到 44%。

Jun, 2019

利用词对齐改进低资源语言的跨语言句子嵌入

跨语言句子嵌入领域最近取得了很大的进展，但是由于平行语料的稀缺性，对于低资源语言的研究相对滞后。本文表明当前模型中低资源语言的跨语言词表示与高资源语言的对齐程度明显不足。为了解决这个问题，我们引入了一种新的框架，通过使用现成的词对齐模型，显式地对英语和八种低资源语言之间的单词进行对齐。该框架包含三个主要的训练目标：对齐的单词预测、单词翻译排序，以及广泛使用的翻译排序。我们通过在双语检索任务上进行实验证明了我们的方法，该方法在低资源语言的句子嵌入上取得了显著的改进。此外，所提出模型在高资源语言上更广泛任务的竞争性表现凸显了其实用性。

Apr, 2024

使用锚点和一系列相关语言的多语言词嵌入：面向低资源语言

通过一种基于语言链的新方法构建多语言词嵌入（MWEs），该方法通过中间相关语言弥合远源和目标的差距。我们通过在语言链中逐个添加每种语言，从资源丰富的源语言开始，构建 MWEs。我们将半联合双语方法扩展到多种语言，以消除以前工作的主要弱点，即独立训练的单语词嵌入，并使目标语言围绕多语言空间进行锚定。我们在涉及 4 个非常低资源（<5M 令牌）和 4 个适度低资源（<50M）目标语言的 4 个语言家族的双语词典感应中评估了我们的方法，显示了两个类别的改进性能。此外，我们的分析揭示了中间语言的高质量嵌入的重要性，以及利用多语言空间中所有语言的锚点的重要性。

Nov, 2023

无监督的跨语言词向量空间转移

本文提出了一种基于无监督学习的算法，通过分布匹配和最小化回译损失来优化两种语言单词嵌入空间之间的转换函数，使用神经网络计算 Sinkhorn 距离评估性能并在跨语言词汇相似度预测和双语词汇归纳等任务中具有强大的性能。

Sep, 2018

跨语言 IR 的神经匹配模型研究

通过研究交互式神经匹配模型，结合多语言词向量，为跨语言信息检索建立端到端系统提供了途径。

May, 2020

使用交叉编码器重新排序提高双语词典归纳能力

本文提出了 BLICEr（BLI with Cross-Encoder Reranking）方法，是一个半监督的后处理重排序方法，用于任意预先计算过的 CLWE 空间，取得了基于两个标准 BLI 基准的新的最先进结果，涵盖了各种不同语言的宽谱。

Oct, 2022