超越对比学习：一种多语言检索的变分生成模型

Dec, 2022

超越对比学习：一种多语言检索的变分生成模型

Beyond Contrastive Learning: A Variational Generative Model for Multilingual Retrieval

John Wieting, Jonathan H. Clark, William W. Cohen, Graham Neubig, Taylor Berg-Kirkpatrick

TL;DR本文提出了一种新的多语种文本嵌入生成模型 —— VMSST，通过在 $N$ 种语言的并行数据上运行，通过一个引入的近似算法，在多语种语境中鼓励源分离，我们在比较学习多语种文本嵌入的对比和基于生成的方法时，对其进行了仔细的大规模比较，并对其进行了语义相似性、位文本挖掘、跨语言问题检索等任务的评估，从而证明了其优越性。

Abstract

contrastive learning has been successfully used for retrieval of semantically aligned sentences, but it often requires large batch sizes or careful engineering to work well. In this paper, we instead propose a generative model for learning →

contrastive learning multilingual text embeddings semantic similarity bitext mining cross-lingual question retrieval

发现论文，激发创造

双语生成式 Transformer 用于语义句子嵌入

本文提出了一种基于变分概率框架的深度潜变量模型，使用双语数据，利用拥有共性的语义信息与特性进行训练，使模型可以将并行语句进行源分离，得到隐含的语义向量，进而对单语数据进行预测。实验证明，该方法在无监督语义相似性评估方面的表现明显优于现有方法，并且还能在不适合使用简单词语重叠作为相似性指标的更难评估子集中发挥最大的作用。

Nov, 2019

对比学习的多语言表征蒸馏

该研究加入对比学习以蒸馏多语言表示，并用于平行语句的质量估计。实验证明，该方法在不同的资源稀少语言上显著优于先前的句子编码器，诸如 LASER 等。

Oct, 2022

基于对比学习的语言无关多语种信息检索

通过利用平行语料库和非平行语料库，采用对比学习等方法，有效提高了预训练多语言语言模型的跨语言传递能力，同时显著提高了检索性能，且计算成本较低。

Oct, 2022

HU 参加 SemEval-2024 任务 8A：对比学习能否学习嵌入以检测机器生成的文本？

我们提出了一个基于对比学习的单一模型，通过数据增强和对比学习，在没有使用多个模型集合的情况下，达到与多模型相当的性能表现。

Feb, 2024

具有对比翻译记忆的神经机器翻译

本文提出了一种新的检索增强 NMT 模型，用于对比检索翻译记忆，利用 Hierarchical Group Attention 模块和 Multi-TM contrastive learning 目标函数增加多层面信息收益，实验结果表明，该模型在基准数据集上优于现有算法。

Dec, 2022

通过软对比学习改善多语言对齐

提出新的方法来对齐多语种嵌入，基于单语种嵌入模型中句子的相似性测量；实验证明我们的方法在多语种数据集上表现出色，优于现有的多语种嵌入方法和对比损失方法。

May, 2024

自然语言处理的多语言多模态嵌入

我们提出了一种新的判别模型，它从多语言和多模态数据中学习嵌入，因此我们的模型可以利用多种语言的图像和描述来提高嵌入质量。通过对图像和语句进行排名、对语义文本相似性进行评估，以及对神经机器翻译进行评估，我们发现附加的多语言信号可以改进 ISR 和 STS 任务，并且判别成本也可以用于重新排列 NMT 模型产生的最佳 $n$ 列表，从而产生强大的改进。

Feb, 2017

用于多通道视频 - 语言检索的预训练对比模型的快速适应

探索多模态检索中利用预训练对比模型和文本符号融合信息的最佳方式，并发现用离散文本符号表示视频的方法取得最佳效果。

Jun, 2022

MCSE: 句子嵌入的多模态对比学习

本文提出了一种基于多模态对比目标的句子嵌入学习方法，利用同时包含视觉和文本信息的数据提高了语义相似性任务的性能，并通过分析文本嵌入空间的性质解释了本方法提高性能的原因。

Apr, 2022

VECO 2.0: 多粒度对比学习的跨语言语言模型预训练

本文提出了一种基于对比学习的多粒度对齐的跨语言预训练模型 VECO~2.0，将序列到序列对齐和标记到标记对齐相结合，以支持跨语言模型预训练，通过在 XTREME 基准上的实验证明了该方法的有效性。

Apr, 2023