不确定性感知的多视角视觉语义嵌入

Sep, 2023

不确定性感知的多视角视觉语义嵌入

Uncertainty-Aware Multi-View Visual Semantic Embedding

Wenzhang Wei, Zhipeng Gui, Changguang Wu, Anqi Zhao, Xingguang Wang...

TL;DR我们提出了一种 Uncertainty-Aware Multi-View Visual Semantic Embedding (UAMVSE) 框架，通过多种视图 - 文本匹配将整体图像 - 文本匹配分解，引入了一种不确定性感知损失函数（UALoss）来自适应地建模每个视图 - 文本对应关系的不确定性，不同的权重指导模型关注不同的语义信息，增强了模型理解图像和文本的对应关系的能力。我们还设计了一种优化的图像 - 文本匹配策略，通过标准化相似度矩阵来提高模型性能。在 Flicker30k 和 MS-COCO 数据集上的实验结果表明，UAMVSE 优于最先进的模型。

Abstract

The key challenge in image-text retrieval is effectively leveraging semantic information to measure the similarity between vision and language data. However, using instance-level binary labels, where each image is paired with a single text, fails to capture multiple correspondences bet

image-text retrieval semantic information multi-modal semantic understanding uncertainty-aware multi-view visual semantic embedding uamvse

发现论文，激发创造

基于共识感知的视觉 - 语义嵌入用于图像 - 文本匹配

本文提出一种共识感知的视觉 - 语义嵌入模型（CVSE），以将共识信息，即图像文字的基础知识，融入到图像 - 文本匹配中，并通过构建概念相关性图来实现共识信息的利用，以及通过实例级表示为两种模态学习图像和文本之间的关联和对准。实验表明，相较于先进的方法，利用共识信息对构建更有意义的视觉 - 语义嵌入具有优越的性能，特别是在双向图像和文本检索任务上。

Jul, 2020

文本引导的图像检索的排名感知不确定性

提出了一种新颖的基于排名感知的不确定性方法，通过使用提供的三元组来建模多对多的对应关系，学习特征的随机排名列表，并对源输入和目标图像的分布表示进行分布规范化，从而在组合图像检索的两个公共数据集上取得了显著的结果。

Aug, 2023

多模态不确定性感知视觉 - 语言预训练模型

本文通过概率分布编码器（PDE）将所有模态的表示作为概率分布映射，对不确定性建模，提出了基于概率分布的预训练任务并在视觉和语言联合任务上实现了最先进的结果。

Oct, 2022

UniVSE: 通过结构化语义表示实现强健的视觉语义嵌入

该论文提出了统一的视觉语义嵌入方法，采用对比学习的方法从仅有的图像 - 标题对中对不同水平的概念进行对齐，对于句子中出现的语义组件进行了有效处理，证明该方法具有鲁棒性和可靠性。

Apr, 2019

学习鲁棒的视觉 - 语义嵌入

该研究提出了一种基于无监督学习和深度神经网络的终端到终端学习框架，结合自编码器和最大均值差异损失来学习语义和视觉特征的联合嵌入，实现了跨域多模态表示的提取，并构建了更全面的标记和未标记数据的嵌入，帮助从归纳到传导的范围内解决零样本和少样本图像识别和检索等各种复杂任务。

Mar, 2017

多视角关注的图像文本匹配

提出了一个针对两流图像 - 文本匹配的多视图注意力方法（MVAM），通过多样的注意头学习多个图像和文本表示，并将这些表示连接起来进行匹配，以实现更好的匹配性能和更全面的表示。

Feb, 2024

跨模态图像 - 文本联合嵌入的网络监督检索

文章提出了利用网络图像及对应标签实现鲁棒视觉 - 语义联合嵌入学习的方法，通过在有限的训练数据中引入弱标注的网络图像能够取得比当前最先进方法更显著的图像 - 文本检索性能提升。

Aug, 2018

神经机器翻译的不确定性感知语义增强

本文提出了一种新的方式用于神经机器翻译的模型训练，通过对多个具有相同语义的源语言句子进行明确抓取通用的语义信息以提高模型性能。在各类翻译任务的实验中，本方法表现显著优于现有方法。

Oct, 2020

使用标题和点击数据的多任务文本到视觉嵌入

论文提出一种新的方法，使用图像标题和来自图像搜索引擎的点击数据来学习文本 - 视觉嵌入，并通过建模嵌入的积极感知提出新的三元损失函数，以及引入一种新的基于小批次的难例负采样方法来提高学习过程的数据效率，实验结果表明，该方法的表现优于现有方法，并且对于现实世界的文本到视觉检索也十分有效。

May, 2019

自监督多视角立体匹配中的不确定性探究

提出了一种新的 UMVS 框架，通过估计自监督 MVS 中的认知不确定性来处理前景中的不确定监督和背景中的无效监督信号，并在 DTU 和 Tank＆Temples 基准测试中获得了最佳性能。

Aug, 2021