基于不确定性的概率表示交叉模态检索

Apr, 2022

基于不确定性的概率表示交叉模态检索

Uncertainty-based Cross-Modal Retrieval with Probabilistic Representations

Leila Pishdad, Ran Zhang, Konstantinos G. Derpanis, Allan Jepson, Afsaneh Fazly

TL;DR本文研究了在跨模态（即文本和图像）环境下使用概率嵌入的优势，并提出了一种简单的方法，将现有图像 - 文本匹配模型中的标准向量点嵌入替换为参数化学习的概率分布。通过广泛的实验，证明在跨模态检索中，概率表示法具有一致的优势，并验证了其捕捉不确定性的能力。

Abstract

probabilistic embeddings have proven useful for capturing polysemous word meanings, as well as ambiguity in image matching. In this paper, we study the advantages of probabilistic embeddings in a →

probabilistic embeddings polysemous word meanings cross-modal setting uncertainty image-text matching

发现论文，激发创造

跨模态检索的概率嵌入

本研究提出了一种基于概率交叉模态嵌入的跨模态检索方法，该方法能够捕捉到一个图像或者一句话与多个相应图像或句子间的一对多关系。我们通过在 CUB 数据集上测试，证明了该方法不仅能提高检索性能，而且可以提供可解释性和不确定性的嵌入表示。

Jan, 2021

多模式图像检索的概率组合嵌入

本文在图像检索中，研究了使用多个多模态查询的检索场景，并提出了一种新的多模态概率组合器，用于检索具有多个多模态查询指定语义概念的目标图像，同时在基于 MS-COCO 数据集的新基准上评估了我们的模型表现。

Apr, 2022

跨模态检索的基于样本的条件不确定性量化

本文提出了一种新颖的基于原型的随机不确定性量化（PAU）框架，通过对内在数据模糊性的不确定性进行量化，构建了可信赖的预测，为跨模态检索提供准确的不确定性和可靠的预测。

Sep, 2023

跨模态信息检索是否可以无需训练？

本文提出了一种基于深度学习预训练模型的编码表示方法，使用简单的最小二乘和奇异值分解（SVD）解决 Procrustes 问题来构建不同模态之间的语义对齐，并通过对预训练模型进行反证学习和多层感知机改进，实现了在图像和文本交叉检索任务中可比拟于需要昂贵的神经网络训练和微调的高性能。

Apr, 2023

文本引导的图像检索的排名感知不确定性

提出了一种新颖的基于排名感知的不确定性方法，通过使用提供的三元组来建模多对多的对应关系，学习特征的随机排名列表，并对源输入和目标图像的分布表示进行分布规范化，从而在组合图像检索的两个公共数据集上取得了显著的结果。

Aug, 2023

重新审视跨模态检索

本文提出了一种交叉模态检索系统，利用图像和文本编码，实现了同时检索模态的功能，避免了需要为每个模态使用不同网络的缺点。在所使用的知识中，本文是第一篇采用单一网络和融合的图像 - 文本嵌入进行跨模态检索的工作。在 MS-COCO 和 Flickr30K 两个著名的多模态数据集上对该方法进行了评估。

Jul, 2018

多模态不确定性感知视觉 - 语言预训练模型

本文通过概率分布编码器（PDE）将所有模态的表示作为概率分布映射，对不确定性建模，提出了基于概率分布的预训练任务并在视觉和语言联合任务上实现了最先进的结果。

Oct, 2022

改进的概率图像文本表示

本文提出了一种改进的概率交叉模态嵌入（PCME ++）方法，用于改进图像文本匹配（ITM）中可能存在的模糊度问题，并通过引入一种新的概率距离与解决方案以及两种优化技术来进一步增强 PCME ++。该研究表明，PCME ++ 相对于最先进的 ITM 方法具有良好的鲁棒性，并可应用于零样本分类中自动提示调优的实践中。

May, 2023

从释义学习概率句子表示

本文定义了能够为句子产生分布的概率模型，最佳表现的模型将每个单词视为线性转换算子应用于多变量高斯分布，并通过从定义的模型中进行训练，演示了实现句子特定性的自然方式。虽然我们的模型是整体最佳表现的，但通过句子向量的范数表示来表示句子的特异性的简单架构也能够表现句子的特异性。质性分析表明，我们的概率模型捕获了句子涵盖并提供了分析单词特异性和精确性的方法。

May, 2020

不确定性感知的多视角视觉语义嵌入

我们提出了一种 Uncertainty-Aware Multi-View Visual Semantic Embedding (UAMVSE) 框架，通过多种视图 - 文本匹配将整体图像 - 文本匹配分解，引入了一种不确定性感知损失函数（UALoss）来自适应地建模每个视图 - 文本对应关系的不确定性，不同的权重指导模型关注不同的语义信息，增强了模型理解图像和文本的对应关系的能力。我们还设计了一种优化的图像 - 文本匹配策略，通过标准化相似度矩阵来提高模型性能。在 Flicker30k 和 MS-COCO 数据集上的实验结果表明，UAMVSE 优于最先进的模型。

Sep, 2023