使用双动量对跨语言句子表示进行对齐

EMNLPSep, 2021

使用双动量对跨语言句子表示进行对齐

Aligning Cross-lingual Sentence Representations with Dual Momentum Contrast

Liang Wang, Wei Zhao, Jingming Liu

TL;DR本文提出一种方法，将不同语言的句子表示对齐到统一的嵌入空间中，从而计算语义相似性，并使用 MoCo 方法进一步提高对齐质量，实现了在 Tatoeba en-zh 相似度搜索、BUCC en-zh 比特语料挖掘和 7 个数据集上的语义文本相似性等多项任务中新的最先进水平。

Abstract

In this paper, we propose to align sentence representations from different languages into a unified embedding space, where semantic similarities (both →

sentence representations cross-lingual embedding space pre-trained language models moco

发现论文，激发创造

通过软对比学习改善多语言对齐

提出新的方法来对齐多语种嵌入，基于单语种嵌入模型中句子的相似性测量；实验证明我们的方法在多语种数据集上表现出色，优于现有的多语种嵌入方法和对比损失方法。

May, 2024

来自平行句子的稳健跨语言嵌入

提出一种基于双语 CBOW 方法的联合学习方法，通过利用句子对齐语料库获得强健的跨语言词和句子表示，显著提高了跨语言句子检索性能，并在维持单词翻译方面与最先进的方法并驾齐驱，同时在零 - shot 跨语言文档分类任务方面达到深度 RNN 方法的水平，对单语词向量的提高优势明显。

Dec, 2019

基于跨语言句子移位距离的大规模多语言文档对齐

本文提出一种基于跨语言句嵌入的无监督打分函数，用于计算不同语言中文档之间的语义距离，从而指导文档对齐算法以适当地匹配跨语言 Web 文档，并在不同语言对中显著提高对齐效果。

Jan, 2020

利用词对齐改进低资源语言的跨语言句子嵌入

跨语言句子嵌入领域最近取得了很大的进展，但是由于平行语料的稀缺性，对于低资源语言的研究相对滞后。本文表明当前模型中低资源语言的跨语言词表示与高资源语言的对齐程度明显不足。为了解决这个问题，我们引入了一种新的框架，通过使用现成的词对齐模型，显式地对英语和八种低资源语言之间的单词进行对齐。该框架包含三个主要的训练目标：对齐的单词预测、单词翻译排序，以及广泛使用的翻译排序。我们通过在双语检索任务上进行实验证明了我们的方法，该方法在低资源语言的句子嵌入上取得了显著的改进。此外，所提出模型在高资源语言上更广泛任务的竞争性表现凸显了其实用性。

Apr, 2024

利用神经机器翻译学习联合多语句子表示

本研究使用神经机器翻译框架跨越六种完全不同的语言，在学习联合句子表示方面。我们的目标是构建一种与语言无关的表示形式，有可能捕捉到基础的语义。我们定义了一种新的跨语言相似度衡量方式，对我们的模型学习出的 140 万个句子表示进行比较，并研究了相似句子的特征。实验证据表明，嵌入空间中相似的句子实际上具有高度的语义相关性，但通常具有不同的结构和语法。这种关系也适用于不同语言之间的比较。

Apr, 2017

句子嵌入的线性跨语言映射

本文讨论了跨语言句子嵌入向量表示句子语义的方法，并提出了通过简单的线性跨语言映射以及正交性偏差条件的度量来改善多语言嵌入向量。

May, 2023

预训练后的对齐：通过跨语言对齐提升多语生成模型

通过利用翻译句子对齐内部句子表示，并通过回答不同语言的提示问题对齐模型输出，我们提出了一个简单而有效的对齐框架，显著增强了生成模型的跨语言能力并减小了性能差异。进一步分析表明，它导致了更好的多语言模型的内部多语言表示分布。

Nov, 2023

跨模态检索任务的多语言词嵌入对齐

提出了一种新的方法来学习多模态多语言嵌入，用于匹配两种语言中图像及其相关标题，结合两个现有的目标函数，在模型中调整现有语言之间的词嵌入对齐，证明该方法实现了更好的泛化，在文本 - 图像和图像 - 文本检索任务中，以及标题 - 标题相似性任务中取得了最先进的性能，使用了 Multi30k 和 Microsoft-COCO 两个多模态多语言数据集进行评估。

Oct, 2019

Cross-Align: 模拟深层跨语言相互作用以进行单词对齐

提出一种基于多语言预训练模型的词语对齐方法，通过在浅层中利用共享的自注意力模块，将源语句和目标语句单独编码，而在较高层通过交叉注意力模块显式地构建跨语言交互，达到提高词语对齐质量的效果。通过采用两阶段训练框架，实现对模型的有效训练，实验结果在五对语言中有四对的性能达到了最新水平。

Oct, 2022

跨语言句子嵌入的双重对齐预训练

我们提出了一种双重对齐预训练框架 (DAP)，它结合了句级和令牌级对齐，用于跨语言句子嵌入，其中引入了一种表示翻译学习 (RTL) 任务来将翻译信息嵌入到令牌表示中。在三个跨语言基准测试上进行了广泛实验，表明我们的方法能够显著提高句子嵌入。

May, 2023