句子嵌入的线性跨语言映射

May, 2023

Linear Cross-Lingual Mapping of Sentence Embeddings

Oleg Vasilyev, Fumika Isono, John Bohannon

TL;DR本文讨论了跨语言句子嵌入向量表示句子语义的方法，并提出了通过简单的线性跨语言映射以及正交性偏差条件的度量来改善多语言嵌入向量。

Abstract

semantics of a sentence is defined with much less ambiguity than semantics of a single word, and it should be better preserved by translation

semantics sentence embeddings multilingual translation orthogonality

发现论文，激发创造

超多语言 LLMs：令牌嵌入的跨语言可解释性

多语言大型语言模型的跨语言迁移学习是重要的，通过对输入嵌入的相似性进行解释，本研究揭示了语言模型的语言表示，在不同模型族的嵌入中存在语言编码和跨语言语义相似性的差异，这为研究预训练和模型架构对语言表示的影响以及嵌入在语言模型中的跨语言表示的应用提供了机会。

Nov, 2023

来自平行句子的稳健跨语言嵌入

提出一种基于双语 CBOW 方法的联合学习方法，通过利用句子对齐语料库获得强健的跨语言词和句子表示，显著提高了跨语言句子检索性能，并在维持单词翻译方面与最先进的方法并驾齐驱，同时在零 - shot 跨语言文档分类任务方面达到深度 RNN 方法的水平，对单语词向量的提高优势明显。

Dec, 2019

单语和跨语言元嵌入的共同语义空间

本文介绍了一种新的技术来创建单语和跨语言的元嵌入。通过使用多种技术、文本来源、知识库和语言创建的多个单词嵌入，使用线性变换和平均值将现有单词向量投射到公共语义空间，以保持原始嵌入的维度，并通过处理词汇表外的问题而不失去信息。经过广泛的实证评估，我们的技术在各种内在和外在的多语言评估方面表现出对以前工作的有效性，并获取了在语义文本相似性方面具有竞争力的结果，并在单词相似性和词性标注方面得到了最先进的性能（英文和西班牙文）。跨语言元嵌入还表现出优秀的跨语言转移学习能力，即我们可以利用资源丰富的语言中预训练的源嵌入来改进贫乏语言的单词表示。

Jan, 2020

上下文感知的跨语言映射

本文提出了一种基于上下文的跨语言映射技术，利用平行语料库中对齐的句子的平均嵌入来替代单词级别映射，从而实现更好的句子级别跨语言相似性，实验证明该方法能够在句子翻译检索中优于独立于语境的单词映射。

Mar, 2019

一种轻量级的跨语言语义文本相似度方法

该研究提出了一种基于词向量的跨语义相似度计算方法，只需要一个有限的单词翻译库，能够适用于几乎所有语言对，达到与监督和资源密集型方法相近的表现，在可比较语料库中提取平行句子和跨语言抄袭检测任务中得到与现有模型相当的性能。

Jan, 2018

无监督和半监督跨语言词嵌入学习的鲁棒性研究

本文通过大量的评估，分析了多种跨语言嵌入模型的优劣，特别是在目标语言，训练语料库和监督程度等不同方面的限制，从而对 “高质量跨语言嵌入模型可以在不需要太多监督的情况下学习到” 的观点提出了质疑。

Aug, 2019

分析跨语言词嵌入映射的限制

本研究探讨了跨语言词嵌入的离线和联合学习方法，并发现在并行语料库下，联合学习可以更准确地解决不同语言间的相似性问题，尤其在双语词典诱导方面表现更优。因此，建议在跨语言嵌入研究中加强联合学习的研究。

Jun, 2019

跨语言词嵌入模型调查

本文综述了跨语言词向量模型的具体类型，比较它们的数据需求和目标函数，并讨论了如何对跨语言词向量模型进行评估和未来研究的挑战。

Jun, 2017

通过中间相遇提升跨语言词嵌入

本研究中，我们提出了一种修改交叉语言同义词向中心点移动的方法，可通过最初的线性变换对两个不相交的单语向量空间进行对准来有效学习交叉语言词嵌入，并实现更好的交叉语言整合。同时，我们的实验结果表明该方法明显优于现有方法在单语和跨语言评估任务方面的表现。

Aug, 2018

对比学习能够学习通用的跨语言句子嵌入

本文提出了 mSimCSE，在英文数据上进行对比学习，不需要平行数据，可以学习高质量的通用跨语种句子嵌入。在无监督和弱监督设置中，mSimCSE 在跨语种检索和多语 STS 任务上显著改进了先前的句子嵌入方法。在检索低资源语言和多语 STS 任务上，无监督的 mSimCSE 表现与完全监督的方法相当。当跨语言 NLI 数据可用时，性能可以进一步提高。

Nov, 2022