通过多模态蕴含修订图像 - 文本检索

Aug, 2022

通过多模态蕴含修订图像 - 文本检索

Revising Image-Text Retrieval via Multi-Modal Entailment

Xu Yan, Chunhui Ai, Ziqiang Cao, Min Cao, Sujian Li...

TL;DR本论文提出了一种多模态蕴含分类器来确定图像的语句，以及开发了一种通用可调节学习速率策略来教授一个检索模型区分这些蕴含的语句和其他负样本。在实验中，我们手动注释了一个蕴含更正的图像文本检索数据集用于评估。结果表明，所提出的蕴含分类器达到了约 78% 的准确度，并持续提高了图像文本检索基线的性能。

Abstract

An outstanding image-text retrieval model depends on high-quality labeled data. While the builders of existing image-text retrieval datasets strive to ensure that the caption matches the linked image, they cannot

image-text retrieval labeled data multi-modal entailment classifier learning rate strategy evaluation accuracy

发现论文，激发创造

理解、分类和预测语义图像 - 文本关系

本文借鉴视觉传达研究，探究了多模式信息检索的有用语义图像 - 文本关系，在自动收集和扩充数据资源的基础上，采用深度学习系统和三种度量标准（跨模态互信息、语义相关性和图像与文本的状态关系）对八种语义图像 - 文本类别进行了预测，并在一个严格的测试集上展示了该方法的可行性。

Jun, 2019

跨模态图像 - 文本联合嵌入的网络监督检索

文章提出了利用网络图像及对应标签实现鲁棒视觉 - 语义联合嵌入学习的方法，通过在有限的训练数据中引入弱标注的网络图像能够取得比当前最先进方法更显著的图像 - 文本检索性能提升。

Aug, 2018

一张图片相当于五个句子吗？对于图像 - 文本匹配的语义进行新的探究

本文提出了两种关联度度量指标，并提出一种新的策略用于定义语义自适应边缘，并将其用于标准三元组损失函数的优化中，从而在有限的训练数据情况下得到了很大的改进。

Oct, 2021

StacMR: 场景文本感知的跨模态检索

本文提出了一个新的数据集，使得可以探索图像包含场景文本实例时的交叉检索。我们提出了几种方法，其中包括更好的场景文本感知交叉检索方法，它使用了来自标题和视觉场景文本的专门表示，并将它们调和在一个公共嵌入空间中。大量实验证实了这些方法从场景文本中受益，并突出了值得进一步探索的有趣研究问题。本文中提出的数据集和代码可在 http URL 中获得。

Dec, 2020

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

检索辅助的图像字幕生成

提出了一种使用预训练的视觉和语言编码器的图像字幕生成方法，该方法联合处理图像和从 Datastore 检索到的字幕，实现了检索增强的语言生成，该方法名为 EXTRA。实验结果表明，检索足够数量的字幕可以提高字幕生成的质量。

Feb, 2023

重新审视跨模态检索

本文提出了一种交叉模态检索系统，利用图像和文本编码，实现了同时检索模态的功能，避免了需要为每个模态使用不同网络的缺点。在所使用的知识中，本文是第一篇采用单一网络和融合的图像 - 文本嵌入进行跨模态检索的工作。在 MS-COCO 和 Flickr30K 两个著名的多模态数据集上对该方法进行了评估。

Jul, 2018

通过生成模型改进文本 - 视觉交叉检索：观察、想象和匹配

本文提出一种新的跨模态检索方法，利用生成式模型学习多模态数据的全局和本地特征，从而在 MSCOCO 数据集上实现了最先进的跨模态检索结果。

Nov, 2017

融合模型用于改进视觉字幕生成

本文提出了一个通用的多模态模型融合框架，以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合，以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。

Oct, 2020

文本蕴含基础

本文研究了文本蕴涵中的语义关系 —— 通过可能世界来分析前提和假说之间的关系，同时结合图像进行多模态的分析，结果表明文本和视觉信息相结合可以更好地进行文本蕴涵，但当前多模态模型在 “接地” 方面还不够优化。

Jun, 2018