具有潜在共同关注的身份感知文本 - 视觉匹配

ICCVAug, 2017

具有潜在共同关注的身份感知文本 - 视觉匹配

Identity-Aware Textual-Visual Matching with Latent Co-attention

Shuang Li, Tong Xiao, Hongsheng Li, Wei Yang, Xiaogang Wang

TL;DR本文提出了一个基于身份感知的两阶段框架，通过新颖的 CMCE 损失函数和潜在的共同注意机制来提高文本 - 视觉匹配的准确性，实验证明其相对于先前的最先进方法取得了显著的性能改进。

Abstract

textual-visual matching aims at measuring similarities between sentence descriptions and images. Most existing methods tackle this problem without effectively utilizing identity-level annotations. In this paper, we propose an →

textual-visual matching identity-aware two-stage framework cross-modal cross-entropy loss latent co-attention mechanism state-of-the-art approaches

发现论文，激发创造

图像文本匹配的交叉堆叠注意力

本文研究图像文本匹配问题，提出了一种使用交叉注意力机制的方法来发现包括图像区域和句子单词在内的全部潜在对齐，从而推断图像与文本之间的相似性，实验结果在 MS-COCO 和 Flickr30K 数据集上均表现为最先进的水平。

Mar, 2018

基于选择性多模态 LSTM 的实例感知图像和句子匹配

通过提出选择性多模态长短时记忆网络 (sm-LSMT)，并在其每个时间步上应用适应性注意力机制，同时通过预测成对实例结点显著图来选择性地注意一对图像和句子实例，从而比较和测量它们之间的相似度，并通过多个时间步骤内的多个局部相似度测量，使用隐藏状态来最终聚合它们，以获得期望的全局相似度，我们可以更好地匹配具有复杂内容的图像和句子，并在两个公共基准数据集上实现最先进的结果。

Nov, 2016

对抗表示学习用于文本到图像匹配

本文提出了一种基于 TIMAM 和 BERT 的文本图像匹配模型，该模型可以学习到模态不变的特征表示，在四个公开数据集上取得了最优的交叉模态匹配性能，排名 1 的准确率提高了 2％到 5％。

Aug, 2019

多视角关注的图像文本匹配

提出了一个针对两流图像 - 文本匹配的多视图注意力方法（MVAM），通过多样的注意头学习多个图像和文本表示，并将这些表示连接起来进行匹配，以实现更好的匹配性能和更全面的表示。

Feb, 2024

图像 - 文本匹配的视觉语义推理

我们提出了一种简单而易于解释的推理模型，用于生成全局场景的主要对象和语义概念的可视化表示，该模型使用图卷积网络进行关联和推理，再使用门和记忆机制进行全局语义推理，选取判别信息并逐渐生成整个场景的表示；实验证明我们的方法在 MS-COCO 和 Flickr30K 数据集上取得了相对于最佳方法分别为 6.8％和 4.8％的图像检索和字幕检索的新的最佳效果，Flickr30K 数据集上分别提高了 12.6％和 5.8％的图像检索和字幕检索。

Sep, 2019

使用标题和点击数据的多任务文本到视觉嵌入

论文提出一种新的方法，使用图像标题和来自图像搜索引擎的点击数据来学习文本 - 视觉嵌入，并通过建模嵌入的积极感知提出新的三元损失函数，以及引入一种新的基于小批次的难例负采样方法来提高学习过程的数据效率，实验结果表明，该方法的表现优于现有方法，并且对于现实世界的文本到视觉检索也十分有效。

May, 2019

场景文本识别的视觉注意力模型

本文提出了一种无词典的场景图像文本识别方法，该方法基于一种基于 LSTM 的软视觉注意模型，该模型从卷积特征中学习。通过导出与图像不同区域对应的中间卷积层的一组特征向量，实现了对空间信息的编码，从而使框架能够学习如何选择性地聚焦于图像的不同部分。除此之外，我们还展示了通过将显式语言模型集成到束搜索算法中来修改改良的束搜索算法可以导致更好的识别结果，以标准的 SVT 和 ICDAR'03 场景文本数据集为基础，证明了我们方法在无约束文本识别中的卓越表现。

Jun, 2017

带有实例损失的双路径卷积图像 - 文本嵌入

本文提出了一种新的系统，以区分性地嵌入图像和文本到共享的视觉 - 文本空间，通过实例损失和端到端学习的双路径卷积网络来解决图像和文本匹配问题，并在 Flickr 30k 和 MSCOCO 上达到了与最先进方法相当的准确度，同时在基于语言的人员检索中取得了很大的改进。

Nov, 2017

图像 - 文本匹配的先进多模态深度学习架构

利用创新的跨模态关注机制和分层特征融合策略，将深度神经网络的高级抽象表示能力与自然语言处理模型的文本语义理解优势相结合，以实现图像和文本之间的深度融合和双向交互的多模态深度学习架构。实验证明，与现有的图像和文本匹配模型相比，优化后的新模型在一系列基准数据集上表现出显著的性能提升，并且在面对以前未见过的复杂情况时也能保持较高的匹配性能。

Jun, 2024

跨模态对比学习与非对称协同注意网络在视频时刻检索中的应用

视频时刻检索是一项具有挑战性的任务，需要视频和文本模态之间的精细交互。我们评估了一个最近提出的解决方案，在视频 grounding 任务中引入了不对称协同注意力网络，并在两个模态中加入了动量对比损失，其整合效果在 TACoS 数据集上表现更好，并在 ActivityNet Captions 上表现可比的结果，而且相对于基线模型，参数数量显著减少。

Dec, 2023