多视角关注的图像文本匹配

Feb, 2024

Image-Text Matching with Multi-View Attention

Rui Cheng, Wanqing Cui

TL;DR提出了一个针对两流图像 - 文本匹配的多视图注意力方法（MVAM），通过多样的注意头学习多个图像和文本表示，并将这些表示连接起来进行匹配，以实现更好的匹配性能和更全面的表示。

Abstract

Existing two-stream models for image-text matching show good performance while ensuring retrieval speed and have received extensive attention from industry and academia. These methods use a single representation to encode image and text separately and get a matching score with cosine s

two-stream model image-text matching multi-view attention matching performance diversity objective

发现论文，激发创造

具有潜在共同关注的身份感知文本 - 视觉匹配

本文提出了一个基于身份感知的两阶段框架，通过新颖的 CMCE 损失函数和潜在的共同注意机制来提高文本 - 视觉匹配的准确性，实验证明其相对于先前的最先进方法取得了显著的性能改进。

Aug, 2017

基于多头注意力的多元化地位学习跨语言多模态表示

本文提出了一种基于视觉物体检测和不同文本语义的多语言多模态表示的模型，采用多头注意力机制对两种语言的文本语义和视觉对象进行细粒度对齐，从而学习到更好的视觉 - 语义嵌入空间，并在多个任务上展现了比其他方法更显著的性能提升。

Sep, 2019

图像文本匹配的交叉堆叠注意力

本文研究图像文本匹配问题，提出了一种使用交叉注意力机制的方法来发现包括图像区域和句子单词在内的全部潜在对齐，从而推断图像与文本之间的相似性，实验结果在 MS-COCO 和 Flickr30K 数据集上均表现为最先进的水平。

Mar, 2018

不确定性感知的多视角视觉语义嵌入

我们提出了一种 Uncertainty-Aware Multi-View Visual Semantic Embedding (UAMVSE) 框架，通过多种视图 - 文本匹配将整体图像 - 文本匹配分解，引入了一种不确定性感知损失函数（UALoss）来自适应地建模每个视图 - 文本对应关系的不确定性，不同的权重指导模型关注不同的语义信息，增强了模型理解图像和文本的对应关系的能力。我们还设计了一种优化的图像 - 文本匹配策略，通过标准化相似度矩阵来提高模型性能。在 Flicker30k 和 MS-COCO 数据集上的实验结果表明，UAMVSE 优于最先进的模型。

Sep, 2023

基于集成自注意力相互学习的文档图像分类网络

该论文提出了一种使用自注意力融合模块与互相学习方法来进行文档图像分类的新模型，在单模态和多模态数据集上均优于当前最先进技术。

May, 2023

图像 - 文本匹配的先进多模态深度学习架构

利用创新的跨模态关注机制和分层特征融合策略，将深度神经网络的高级抽象表示能力与自然语言处理模型的文本语义理解优势相结合，以实现图像和文本之间的深度融合和双向交互的多模态深度学习架构。实验证明，与现有的图像和文本匹配模型相比，优化后的新模型在一系列基准数据集上表现出显著的性能提升，并且在面对以前未见过的复杂情况时也能保持较高的匹配性能。

Jun, 2024

对抗表示学习用于文本到图像匹配

本文提出了一种基于 TIMAM 和 BERT 的文本图像匹配模型，该模型可以学习到模态不变的特征表示，在四个公开数据集上取得了最优的交叉模态匹配性能，排名 1 的准确率提高了 2％到 5％。

Aug, 2019

基于文本引导的图像字幕注意力模型

本研究提出了一种基于文本引导注意力模型的图像字幕生成方法，其能够通过联合图片及相应说明文本的训练数据来实现视觉关注，有效地区分图像中的细小或混淆对象，进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。

Dec, 2016

文本自适应的多视觉原型匹配用于视频检索

本文提出了一种文本自适应多视觉原型匹配模型，通过自适应聚合视频标记特征来描述视频，以解决视频和文本之间的关联模糊问题，而且此方法表现优于当前公共视频检索数据集上的最新技术。

Sep, 2022

多模态张量融合和重新排序的图像和文本匹配

我们提出了一个新的框架，使用基于排名的张量融合来显式学习准确的图像文本相似度函数，通过通用的跨模态重新排序方案实现了模型效果和模型复杂性之间的平衡，从而达到了优秀的匹配性能。

Aug, 2019