通过不匹配关系推理进行图像文本匹配

Aug, 2023

通过不匹配关系推理进行图像文本匹配

Grounded Image Text Matching with Mismatched Relation Reasoning

Yu Wu, Yana Wei, Haozhe Wang, Yongfei Liu, Sibei Yang...

TL;DR本文介绍了 Grounded Image Text Matching with Mismatched Relation（GITM-MR），这是一种评估基于 Transformer 的预训练模型的关系理解能力的新颖的视觉 - 语言联合任务。GITM-MR 要求模型首先确定一个表达是否描述了一个图像，然后定位所指对象或者对文本中不匹配的部分进行地面化。我们提供了一个评估预训练模型在这一任务上的基准，重点考虑数据有限和分布句子长度的挑战性设置。我们的评估表明，预训练模型缺乏数据效率和长度泛化能力。为了解决这个问题，我们提出了 Relation-sensitive Correspondence Reasoning Network（RCRN），该网络通过双向消息传递引导语言结构的方式，融入了关系感知的推理。RCRN 可以解释为模块化程序，并在长度泛化和数据效率方面表现出很好的性能。

Abstract

This paper introduces grounded image text matching with mismatched relation (GITM-MR), a novel visual-linguistic joint task that evaluates the relation understanding capabilities of →

grounded image text matching mismatched relation transformer-based pre-trained models benchmark relation-sensitive correspondence reasoning network

发现论文，激发创造

基于关系嵌入的指代表达式 grounding 表示学习

本文提出了一种 Cross-Modal Relationship Extractor (CMRE) 的方法，利用跨模式的注意力机制自适应地提取和关联表达式中与对象相关的空间和语义关系，并将提取的信息表示为语言导向的视觉关系图。同时，我们还提出了一种 Gated Graph Convolutional Network (GGCN)，通过融合不同模式的信息并在结构化的关系图中传播多模式信息来计算多模式语义上下文，并在三个通用基准数据集上证明了该方法的显著优于所有现有的最新方法。

Jun, 2019

文本到图像的跨模态隐含关系推理和对齐的人物检索

研究了跨模态对齐的图像检索问题，提出了一种 IRRA 框架，并在三个公共数据集上获得了优于现有方法的最新成果。

Mar, 2023

利用神经场景图生成器学习视觉关系先验用于图像文本匹配和图像字幕生成

通过结合神经场景图生成器和最先进的模型，我们的实验表明用于促进语言到视觉关系的关系特征能够显著改进标准的 Flickr30K 和 MSCOCO 基准测试，在端到端的视觉和语言应用中捕获视觉关系。

Sep, 2019

多重查询图像检索的分层匹配和推理

本研究提出一种分层匹配与推理网络，用于多重文本查询下的图像检索，并在基准数据集上进行广泛实验测试，表明我们的 HMRN 显著优于现有的最佳方法。

Jun, 2023

图像文本匹配和检索的 Transformer 推理网络

本文介绍了使用 Transformer Encoder Reasoning Network 架构来进行图像与文本的自动匹配，以便于实现大规模信息检索。试验结果表明，本架构成功实现了该任务且获得了创新性的成果。

Apr, 2020

图像 - 文本匹配的视觉语义推理

我们提出了一种简单而易于解释的推理模型，用于生成全局场景的主要对象和语义概念的可视化表示，该模型使用图卷积网络进行关联和推理，再使用门和记忆机制进行全局语义推理，选取判别信息并逐渐生成整个场景的表示；实验证明我们的方法在 MS-COCO 和 Flickr30K 数据集上取得了相对于最佳方法分别为 6.8％和 4.8％的图像检索和字幕检索的新的最佳效果，Flickr30K 数据集上分别提高了 12.6％和 5.8％的图像检索和字幕检索。

Sep, 2019

高效的令牌引导下的图像文本检索与一致多模态对比性训练

本文提出了一种基于 Token-Guided Dual Transformer (TGDT) architecture 的图像文本检索框架，将粗粒度和细粒度表示学习结合到一个统一的框架中，并提出了一种名为同步多模态对比损失的新型训练目标，通过混合全局和本地跨模态相似性的两个阶段的推理方法，实现了与代表性最新方法相比极低的推理时间下，实现了最先进的检索表现。

Jun, 2023

跨模态注意力一致性正则化用于视觉语言关系对齐

通过跨模态注意力实现多模态视觉语言模型中的关系级对齐，进而改进现有最优方法并克服了标准测评指标中的组合泛化困境。

Dec, 2022

零样本组图检索，考虑到查询目标之间的关系，利用遮罩图像文本对

提出了一种考虑查询目标关系的零样本组合图像检索方法，通过遮蔽的图像文本对。通过利用遮蔽策略学习查询目标关系并训练旨在检索的文本反转网络，预期可以实现精确的零样本组合图像检索。实验结果显示了该方法的有效性。

Jun, 2024

使用图形注意力学习图像文本匹配的双重语义关系

本文提出了一种名为双重语义关系注意力网络 (DSRAN) 的新型图注意力方法，该方法主要由两个模块组成，分别进行不同层次的语义关系学习，从而提高图像文本匹配的准确性，并在 MS-COCO 和 Flickr30K 数据集上取得了显著优于以往方法的效果。

Oct, 2020