重新审视跨模态检索

Jul, 2018

Revisiting Cross Modal Retrieval

Shah Nawaz, Muhammad Kamran Janjua, Alessandro Calefati, Ignazio Gallo

TL;DR本文提出了一种交叉模态检索系统，利用图像和文本编码，实现了同时检索模态的功能，避免了需要为每个模态使用不同网络的缺点。在所使用的知识中，本文是第一篇采用单一网络和融合的图像-文本嵌入进行跨模态检索的工作。在 MS-COCO 和 Flickr30K 两个著名的多模态数据集上对该方法进行了评估。

Abstract

This paper proposes a cross-modal retrieval system that leverages on image and text encoding. Most multimodal architectures employ separate networks for each modality to capture the semantic relationship between

发现论文，激发创造

跨模态检索综述

本文对异构数据检索问题进行了探讨，综述并分类了已有的交叉检索方法，包括基于实值表示学习和基于二进制表示学习的方法，并介绍了多个常用的多模态数据集以及比较不同方法的实验结果。

Jul, 2016

混合传递网络实现跨模态共同表示学习

该论文提出了Cross-modal Hybrid Transfer Network (CHTN)，包含两个子网络：Modal-sharing transfer subnetwork和Layer-sharing correlation subnetwork，用于在不同模态之间进行知识迁移和跨模态检索。

Jun, 2017

通过生成模型改进文本-视觉交叉检索：观察、想象和匹配

本文提出一种新的跨模态检索方法，利用生成式模型学习多模态数据的全局和本地特征，从而在MSCOCO数据集上实现了最先进的跨模态检索结果。

Nov, 2017

跨模态系统是否利用语义关系？

该论文提出一种新的语义相似度评估指标SemanticMap来评估跨模态检索系统的性能，并且提出了基于单流网络的新型跨模态检索系统，该系统使用深度神经网络训练，并在MSCOCO和Flickr30K数据集上进行了评估。

Sep, 2019

保持语义领域对稳健跨模态检索的影响

本篇研究提出了一种方法，使用特定的loss函数，在保持图像和文本子空间内的语义连贯性的同时鼓励它们之间的语义协同，并改进了基线模型，以实现跨模态检索。

Jul, 2020

StacMR: 场景文本感知的跨模态检索

本文提出了一个新的数据集，使得可以探索图像包含场景文本实例时的交叉检索。我们提出了几种方法，其中包括更好的场景文本感知交叉检索方法，它使用了来自标题和视觉场景文本的专门表示，并将它们调和在一个公共嵌入空间中。大量实验证实了这些方法从场景文本中受益，并突出了值得进一步探索的有趣研究问题。本文中提出的数据集和代码可在 http URL 中获得。

Dec, 2020

跨模态检索的概率嵌入

本研究提出了一种基于概率交叉模态嵌入的跨模态检索方法，该方法能够捕捉到一个图像或者一句话与多个相应图像或句子间的一对多关系。我们通过在CUB数据集上测试，证明了该方法不仅能提高检索性能，而且可以提供可解释性和不确定性的嵌入表示。

Jan, 2021

快速检索、智能重新排名：协作和联合方法改进跨模态检索

本文提出了一种基于 fine-tuning 的框架，将任何预先训练的文本-图像多模态模型转换为高效的检索模型，并通过 cooperative retrieve-and-rerank 方法结合双网络和交叉编码器，实现更准确、更高效的跨模态检索。

Mar, 2021

跨模态图像-文本检索基准的重新思考

本文针对图文检索中的细粒度语义匹配问题，以MSCOCO-Test-5K和Flickr30K-Test-1K数据集不足的情况为背景，提出了将其重建为MSCOCO-FG和Flickr30K-FG等数据集的方法，并通过模型评估和实验指出了模型在细粒度语义理解方面的不足之处和提升空间。

Apr, 2023

跨模态协调：在多元输入模态中的协同

提出两种不同的方法来解决跨模态检索的问题，一种基于CLIP对任意数量的输入模式进行扩展，而第二种方法通过回归跨模态相似性来解决协调问题，并在多个数据集上进行实验证明其简单有效，并允许以新的方式解决检索问题。

Jan, 2024