组合对象关系和属性进行图像 - 文本匹配

CVPRJun, 2024

组合对象关系和属性进行图像 - 文本匹配

Composing Object Relations and Attributes for Image-Text Matching

Khoi Pham, Chuong Huynh, Ser-Nam Lim, Abhinav Shrivastava

TL;DR本研究中，我们通过引入场景图表示图像标题，利用图注意力网络构建了一个双编码器的图像 - 文本匹配模型，能高效地编码物体 - 属性和物体 - 物体的语义关系，通过提供对图神经网络的强关系归纳偏置进行学习。我们的模型在两个重要的图像 - 文本检索基准数据集 Flickr30K 和 MSCOCO 上进行实验，证明了相对于计算成本高的交叉注意方法，CORA 在召回得分上具有优势，同时实现了双编码器的快速计算速度。

Abstract

We study the visual semantic embedding problem for image-text matching. Most existing work utilizes a tailored cross-attention mechanism to perform local alignment across the two image and text modalities. This i

visual semantic embedding image-text matching dual-encoder scene graph graph attention network

发现论文，激发创造

使用图形注意力学习图像文本匹配的双重语义关系

本文提出了一种名为双重语义关系注意力网络 (DSRAN) 的新型图注意力方法，该方法主要由两个模块组成，分别进行不同层次的语义关系学习，从而提高图像文本匹配的准确性，并在 MS-COCO 和 Flickr30K 数据集上取得了显著优于以往方法的效果。

Oct, 2020

图像 - 文本 - 图形空间粗糙到精细对比学习，旨在提高视觉语言组合能力

通过构建图像场景的文本表示形式，提出了一种图形分解和增强框架以进行对比学习，同时提出了一种用于改善 scene graph 空间中属性绑定和关系理解的负样本挖掘技术，通过大量实验证明了该方法的有效性。

May, 2023

图像 - 文本匹配的视觉语义推理

我们提出了一种简单而易于解释的推理模型，用于生成全局场景的主要对象和语义概念的可视化表示，该模型使用图卷积网络进行关联和推理，再使用门和记忆机制进行全局语义推理，选取判别信息并逐渐生成整个场景的表示；实验证明我们的方法在 MS-COCO 和 Flickr30K 数据集上取得了相对于最佳方法分别为 6.8％和 4.8％的图像检索和字幕检索的新的最佳效果，Flickr30K 数据集上分别提高了 12.6％和 5.8％的图像检索和字幕检索。

Sep, 2019

通过语言表达视觉关系

该研究利用编码器 - 解码器结构和关系注意力等特征，提出了一种新的在两个图像之间生成关系说明的模型，并透过对新收集及公开的数据集进行实验，证明其比现有的各种基准线和方法都要好。

Jun, 2019

探究图像关系以用于图像描述

本文介绍了一种利用图卷积网络和长短期记忆（GCN-LSTM）结构，将语义和空间对象关系集成到图像编码器中，以生成图像标题的新方法，并在 COCO 图像字幕数据集上开展了广泛的实验，并取得了比现有方法更好的结果。

Sep, 2018

基于 Transformer 双关系图的多标签图像识别

本文提出了基于 Transformer 双重关系学习框架的方法，通过构建结构关系图和语义关系图，利用显式的语义感知约束来动态地建模图像对象的语义含义，并将学习到的结构关系合并到语义图中，为多对象识别任务提供了一种新的方法。

Oct, 2021

组合图像检索的双重关系对齐

我们提出了一种新的合成图像检索框架，名为双关系对齐，它将显式和隐式关系相结合，充分利用三元组之间的相关性，通过融合参考图像和目标图像设计了一个视觉组合器，显著提升了合成图像检索性能。

Sep, 2023

利用偏序关系引导注意力进行图像字幕生成

本文提出了一种引导式的注意力网络机制，将图像的空间特征、主题的高级信息以及生成的字幕的时间上下文嵌入到一个有序的嵌入空间中进行训练，采用成对的排序目标函数，该模型在 MSCOCO 数据集上表现出与众多最先进模型相媲美的竞争力。

Apr, 2022

基于教师推荐学习的目标关系图像视频字幕生成

本文提出了一个视频字幕生成系统，包括一种新颖的基于对象关系图的编码器和一种有效的训练策略，其中使用了教师推荐学习方法和外部语言模型来解决长尾问题，并在多个基准测试中取得最好的性能，实验证明我们的系统是有效的。

Feb, 2020

关注关系网络：将图像映射到场景图

本研究提出了一种新颖的基于注意力机制的关系网络，其包含两个关键模块和一个目标检测主干以实现场景图自动生成，并在 Visual Genome 数据集上进行了实验验证其有效性和优越性。

Nov, 2018