MCSE: 句子嵌入的多模态对比学习
本文提出了一种多模态多任务的 Transformer 模型,通过对句子和非语言数据对比学习的方式来提高句子编码器的性能,并在基准测试中获得了更高质量的语义文本相似性结果。
Sep, 2022
通过最大化同一文本最小扰动嵌入之间的对齐,以及在更广泛的语料库中鼓励嵌入的均匀分布,基于对比学习的各种方法已被提出来从未标记的数据中学习文本表示。不同的是,我们提出最大化文本和其短语成分组成之间的对齐,考虑了此目标的多种实现方法,并详细阐述了每种情况下对表示的影响。语义文本相似性任务上的实验结果显示,与最先进的方法相当的基线改进。此外,本工作是第一个这样做而不需要额外网络参数或辅助训练目标的工作。
Jul, 2023
我们提出了一种新的判别模型,它从多语言和多模态数据中学习嵌入,因此我们的模型可以利用多种语言的图像和描述来提高嵌入质量。通过对图像和语句进行排名、对语义文本相似性进行评估,以及对神经机器翻译进行评估,我们发现附加的多语言信号可以改进 ISR 和 STS 任务,并且判别成本也可以用于重新排列 NMT 模型产生的最佳 $n$ 列表,从而产生强大的改进。
Feb, 2017
本文提出了 mSimCSE,在英文数据上进行对比学习,不需要平行数据,可以学习高质量的通用跨语种句子嵌入。在无监督和弱监督设置中,mSimCSE 在跨语种检索和多语 STS 任务上显著改进了先前的句子嵌入方法。在检索低资源语言和多语 STS 任务上,无监督的 mSimCSE 表现与完全监督的方法相当。当跨语言 NLI 数据可用时,性能可以进一步提高。
Nov, 2022
本文提出了一种模型,其将图像和相关的口头描述作为输入,并找到两种模态之间的对应关系。使用一对卷积神经网络在单词级别模拟视觉对象和语音信号,并采用嵌入和对准模型将两个网络联系在一起,以学习跨两种模态的联合语义空间,最终在 Flickr8k 数据集上使用图像搜索和注释任务评估了我们的模型。
Nov, 2015
本论文研究联合语音 - 文本 Embeddings 空间的内在属性,借助自动语音识别,通过多任务预训练场景实现语义对齐,利用定量检索精度度量语义对齐,进行了深入分析。
Apr, 2022
本文提出了一种多模态学习的编码器 - 解码器模型,学习图像和文本的多模态联合嵌入空间和现代语言模型。使用 LSTM 进行句子编码,该模型在 Flickr8K 和 Flickr30K 数据集上表现出色。同时,该模型通过线性编码器捕捉到了空间算术中的多模态规律。
Nov, 2014
本篇论文提出了一种探测任务的方法,通过训练分类器来比较各种最新的文本 - 图像语义嵌入,揭示了语义嵌入中存在的问题并提出了问题解决方案。实验结果表明,视觉 - 语义嵌入的识别准确率比单媒体嵌入提高了 12% 以上。
Feb, 2021
提出了一种新的方法来学习多模态多语言嵌入,用于匹配两种语言中图像及其相关标题,结合两个现有的目标函数,在模型中调整现有语言之间的词嵌入对齐,证明该方法实现了更好的泛化,在文本 - 图像和图像 - 文本检索任务中,以及标题 - 标题相似性任务中取得了最先进的性能,使用了 Multi30k 和 Microsoft-COCO 两个多模态多语言数据集进行评估。
Oct, 2019