MCSE: 句子嵌入的多模态对比学习

ACLApr, 2022

MCSE: Multimodal Contrastive Learning of Sentence Embeddings

Miaoran Zhang, Marius Mosbach, David Ifeoluwa Adelani, Michael A. Hedderich, Dietrich Klakow

TL;DR本文提出了一种基于多模态对比目标的句子嵌入学习方法，利用同时包含视觉和文本信息的数据提高了语义相似性任务的性能，并通过分析文本嵌入空间的性质解释了本方法提高性能的原因。

Abstract

Learning semantically meaningful sentence embeddings is an open problem in natural language processing. In this work, we propose a sentence embedding learning approach that exploits both visual and textual information via a →

sentence embeddings multimodal contrastive objective semantic similarity pre-trained encoders textual embedding space

发现论文，激发创造

对比学习句向量的非语言监督

本文提出了一种多模态多任务的 Transformer 模型，通过对句子和非语言数据对比学习的方式来提高句子编码器的性能，并在基准测试中获得了更高质量的语义文本相似性结果。

Sep, 2022

句子嵌入的构成对比学习

通过最大化同一文本最小扰动嵌入之间的对齐，以及在更广泛的语料库中鼓励嵌入的均匀分布，基于对比学习的各种方法已被提出来从未标记的数据中学习文本表示。不同的是，我们提出最大化文本和其短语成分组成之间的对齐，考虑了此目标的多种实现方法，并详细阐述了每种情况下对表示的影响。语义文本相似性任务上的实验结果显示，与最先进的方法相当的基线改进。此外，本工作是第一个这样做而不需要额外网络参数或辅助训练目标的工作。

Jul, 2023

自然语言处理的多语言多模态嵌入

我们提出了一种新的判别模型，它从多语言和多模态数据中学习嵌入，因此我们的模型可以利用多种语言的图像和描述来提高嵌入质量。通过对图像和语句进行排名、对语义文本相似性进行评估，以及对神经机器翻译进行评估，我们发现附加的多语言信号可以改进 ISR 和 STS 任务，并且判别成本也可以用于重新排列 NMT 模型产生的最佳 $n$ 列表，从而产生强大的改进。

Feb, 2017

对比学习能够学习通用的跨语言句子嵌入

本文提出了 mSimCSE，在英文数据上进行对比学习，不需要平行数据，可以学习高质量的通用跨语种句子嵌入。在无监督和弱监督设置中，mSimCSE 在跨语种检索和多语 STS 任务上显著改进了先前的句子嵌入方法。在检索低资源语言和多语 STS 任务上，无监督的 mSimCSE 表现与完全监督的方法相当。当跨语言 NLI 数据可用时，性能可以进一步提高。

Nov, 2022

语音与图像的深度多模态语义嵌入

本文提出了一种模型，其将图像和相关的口头描述作为输入，并找到两种模态之间的对应关系。使用一对卷积神经网络在单词级别模拟视觉对象和语音信号，并采用嵌入和对准模型将两个网络联系在一起，以学习跨两种模态的联合语义空间，最终在 Flickr8k 数据集上使用图像搜索和注释任务评估了我们的模型。

Nov, 2015

语音文本语义对齐嵌入的分析

本论文研究联合语音 - 文本 Embeddings 空间的内在属性，借助自动语音识别，通过多任务预训练场景实现语义对齐，利用定量检索精度度量语义对齐，进行了深入分析。

Apr, 2022

多模态神经语言模型统一视觉 - 语义嵌入

本文提出了一种多模态学习的编码器 - 解码器模型，学习图像和文本的多模态联合嵌入空间和现代语言模型。使用 LSTM 进行句子编码，该模型在 Flickr8K 和 Flickr30K 数据集上表现出色。同时，该模型通过线性编码器捕捉到了空间算术中的多模态规律。

Nov, 2014

SimCSE: 简单的对比学习句子嵌入

本文介绍了一种简单的对比学习框架 SimCSE，通过无监督和监督学习两种方法，显著提高了句子嵌入的性能，适用于语义文本相似性任务。

Apr, 2021

探究多模态嵌入在语言属性中的应用：视觉 - 语义案例

本篇论文提出了一种探测任务的方法，通过训练分类器来比较各种最新的文本 - 图像语义嵌入，揭示了语义嵌入中存在的问题并提出了问题解决方案。实验结果表明，视觉 - 语义嵌入的识别准确率比单媒体嵌入提高了 12% 以上。

Feb, 2021

跨模态检索任务的多语言词嵌入对齐

提出了一种新的方法来学习多模态多语言嵌入，用于匹配两种语言中图像及其相关标题，结合两个现有的目标函数，在模型中调整现有语言之间的词嵌入对齐，证明该方法实现了更好的泛化，在文本 - 图像和图像 - 文本检索任务中，以及标题 - 标题相似性任务中取得了最先进的性能，使用了 Multi30k 和 Microsoft-COCO 两个多模态多语言数据集进行评估。

Oct, 2019