Apr, 2024
利用词对齐改进低资源语言的跨语言句子嵌入
Enhancing Cross-lingual Sentence Embedding for Low-resource Languages
with Word Alignment
TL;DR跨语言句子嵌入领域最近取得了很大的进展,但是由于平行语料的稀缺性,对于低资源语言的研究相对滞后。本文表明当前模型中低资源语言的跨语言词表示与高资源语言的对齐程度明显不足。为了解决这个问题,我们引入了一种新的框架,通过使用现成的词对齐模型,显式地对英语和八种低资源语言之间的单词进行对齐。该框架包含三个主要的训练目标:对齐的单词预测、单词翻译排序,以及广泛使用的翻译排序。我们通过在双语检索任务上进行实验证明了我们的方法,该方法在低资源语言的句子嵌入上取得了显著的改进。此外,所提出模型在高资源语言上更广泛任务的竞争性表现凸显了其实用性。