多模态张量融合和重新排序的图像和文本匹配

Aug, 2019

多模态张量融合和重新排序的图像和文本匹配

Matching Images and Text with Multi-modal Tensor Fusion and Re-ranking

Tan Wang, Xing Xu, Yang Yang, Alan Hanjalic, Heng Tao Shen...

TL;DR我们提出了一个新的框架，使用基于排名的张量融合来显式学习准确的图像文本相似度函数，通过通用的跨模态重新排序方案实现了模型效果和模型复杂性之间的平衡，从而达到了优秀的匹配性能。

Abstract

A major challenge in matching images and text is that they have intrinsically different data distributions and feature representations. Most existing approaches are based either on embedding or classification, the first one mapping image and text instances into a common embedding space for distance measuring, and the second one regarding →

image-text matching multi-modal tensor fusion network cross-modal re-ranking similarity function model complexity

发现论文，激发创造

图像 - 文本匹配的先进多模态深度学习架构

利用创新的跨模态关注机制和分层特征融合策略，将深度神经网络的高级抽象表示能力与自然语言处理模型的文本语义理解优势相结合，以实现图像和文本之间的深度融合和双向交互的多模态深度学习架构。实验证明，与现有的图像和文本匹配模型相比，优化后的新模型在一系列基准数据集上表现出显著的性能提升，并且在面对以前未见过的复杂情况时也能保持较高的匹配性能。

Jun, 2024

图像文本匹配和检索的 Transformer 推理网络

本文介绍了使用 Transformer Encoder Reasoning Network 架构来进行图像与文本的自动匹配，以便于实现大规模信息检索。试验结果表明，本架构成功实现了该任务且获得了创新性的成果。

Apr, 2020

带有实例损失的双路径卷积图像 - 文本嵌入

本文提出了一种新的系统，以区分性地嵌入图像和文本到共享的视觉 - 文本空间，通过实例损失和端到端学习的双路径卷积网络来解决图像和文本匹配问题，并在 Flickr 30k 和 MSCOCO 上达到了与最先进方法相当的准确度，同时在基于语言的人员检索中取得了很大的改进。

Nov, 2017

快速检索、智能重新排名：协作和联合方法改进跨模态检索

本文提出了一种基于 fine-tuning 的框架，将任何预先训练的文本 - 图像多模态模型转换为高效的检索模型，并通过 cooperative retrieve-and-rerank 方法结合双网络和交叉编码器，实现更准确、更高效的跨模态检索。

Mar, 2021

通过生成模型改进文本 - 视觉交叉检索：观察、想象和匹配

本文提出一种新的跨模态检索方法，利用生成式模型学习多模态数据的全局和本地特征，从而在 MSCOCO 数据集上实现了最先进的跨模态检索结果。

Nov, 2017

对抗表示学习用于文本到图像匹配

本文提出了一种基于 TIMAM 和 BERT 的文本图像匹配模型，该模型可以学习到模态不变的特征表示，在四个公开数据集上取得了最优的交叉模态匹配性能，排名 1 的准确率提高了 2％到 5％。

Aug, 2019

重新审视跨模态检索

本文提出了一种交叉模态检索系统，利用图像和文本编码，实现了同时检索模态的功能，避免了需要为每个模态使用不同网络的缺点。在所使用的知识中，本文是第一篇采用单一网络和融合的图像 - 文本嵌入进行跨模态检索的工作。在 MS-COCO 和 Flickr30K 两个著名的多模态数据集上对该方法进行了评估。

Jul, 2018

可学习的基于支柱的图像 - 文本重排序

本文提出了一种新的可学习的基于框架的重新排序范式，该范式可以捕捉图片和文本之间的邻居关系，提高单模态检索任务的性能。实验结果表明，该范例具有很好的鲁棒性和推广性能力，并且可以在不同的基础模型上取得很好的效果。

Apr, 2023

文本匹配作为图像识别

本研究提出了一种将文本匹配建模为图像识别问题的方法，即通过构造匹配矩阵并利用卷积神经网络捕捉匹配模式，以此提高匹配准确度，并通过实验证明了该方法的优越性。

Feb, 2016

使用双重多模式编码器对合成图像检索进行候选集重新排序

该研究提出了一个两阶段模型：第一阶段使用常规向量距离度量，快速对候选项进行修剪；第二阶段采用双编码器体系结构，对参考文本 - 候选项 - 文本进行有效注视和重新排序，利用视觉和语言预训练网络，实现了组合先前方法的优点。

May, 2023