对抗表示学习用于文本到图像匹配

ICCVAug, 2019

对抗表示学习用于文本到图像匹配

Adversarial Representation Learning for Text-to-Image Matching

Nikolaos Sarafianos, Xiang Xu, Ioannis A. Kakadiaris

TL;DR本文提出了一种基于 TIMAM 和 BERT 的文本图像匹配模型，该模型可以学习到模态不变的特征表示，在四个公开数据集上取得了最优的交叉模态匹配性能，排名 1 的准确率提高了 2％到 5％。

Abstract

For many computer vision applications such as image captioning, visual question answering, and person search, learning discriminative feature representations at both image and text level is an essential yet chall

computer vision image captioning visual question answering modality-invariant feature representations bert

发现论文，激发创造

通过对抗后向传播实现图像文本多模态表示学习

本文介绍了一种新的图像 - 文本多模态表示学习方法，该方法利用对抗学习概念进行多模态学习，不利用图像 - 文本对信息进行学习，只使用类别信息，其多模态特征的分布与利用图像 - 文本对信息进行学习的其他方法相比更为相似，并且具有通用的语义信息。该模型是端到端反向传播的，在其他多模态学习工作中易于扩展。

Dec, 2016

使用文本驱动的软掩膜进行多模态表征学习

提出了一个自我监督学习框架中的视觉语言表示学习方法，引入了一种新的操作、损失和数据增强策略，其中将图像中最相关于对应的标题中某个单词的区域进行软掩蔽以生成多样的图像特征，然后通过多模态编码器计算出每个单词的条件视觉注意力来确定与其相关的区域，提出了一个用于图像文本对比学习（ITC）目标的焦点损失，并进行多模态数据增强以进行自我监督学习。

Apr, 2023

图像 - 文本匹配的先进多模态深度学习架构

利用创新的跨模态关注机制和分层特征融合策略，将深度神经网络的高级抽象表示能力与自然语言处理模型的文本语义理解优势相结合，以实现图像和文本之间的深度融合和双向交互的多模态深度学习架构。实验证明，与现有的图像和文本匹配模型相比，优化后的新模型在一系列基准数据集上表现出显著的性能提升，并且在面对以前未见过的复杂情况时也能保持较高的匹配性能。

Jun, 2024

带有实例损失的双路径卷积图像 - 文本嵌入

本文提出了一种新的系统，以区分性地嵌入图像和文本到共享的视觉 - 文本空间，通过实例损失和端到端学习的双路径卷积网络来解决图像和文本匹配问题，并在 Flickr 30k 和 MSCOCO 上达到了与最先进方法相当的准确度，同时在基于语言的人员检索中取得了很大的改进。

Nov, 2017

通过生成模型改进文本 - 视觉交叉检索：观察、想象和匹配

本文提出一种新的跨模态检索方法，利用生成式模型学习多模态数据的全局和本地特征，从而在 MSCOCO 数据集上实现了最先进的跨模态检索结果。

Nov, 2017

TIMA: 文本 - 图像相互感知的零样本鲁棒性与泛化能力平衡

通过引入一种新的文本图像相互感知（TIMA）方法，这项工作提出了一种旨在在大规模基础模型中实现零 - shot 对抗鲁棒性并保持零 - shot 泛化的挑战，重点关注流行的对比语言图像预训练（CLIP）模型。该方法在小型对抗扰动下在零 - shot 对抗鲁棒性和泛化之间取得了可比的良好权衡，但在大型对抗扰动下未能实现良好的权衡。该方法在文本嵌入之间增加了最小超球能量（MHE）以提高文本嵌入的跨类别距离，并利用知识蒸馏保持了 MHE 调整后和原始文本嵌入之间的相似性，以保留不同类别之间的语义信息。此外，该方法还引入了一种文本感知图像（TAI）调整机制，在训练阶段通过基于文本距离的自适应边界（TAM）增加了图像嵌入之间的跨类别距离，并利用知识蒸馏保持了 Fine-tuning 后和预训练图像嵌入之间的相似性。广泛的实验结果证明了该方法的有效性，在防御各种对抗扰动的同时，保持了原始 CLIP 模型的零 - shot 泛化能力。

May, 2024

具有潜在共同关注的身份感知文本 - 视觉匹配

本文提出了一个基于身份感知的两阶段框架，通过新颖的 CMCE 损失函数和潜在的共同注意机制来提高文本 - 视觉匹配的准确性，实验证明其相对于先前的最先进方法取得了显著的性能改进。

Aug, 2017

文本到图像的跨模态隐含关系推理和对齐的人物检索

研究了跨模态对齐的图像检索问题，提出了一种 IRRA 框架，并在三个公共数据集上获得了优于现有方法的最新成果。

Mar, 2023

多模态张量融合和重新排序的图像和文本匹配

我们提出了一个新的框架，使用基于排名的张量融合来显式学习准确的图像文本相似度函数，通过通用的跨模态重新排序方案实现了模型效果和模型复杂性之间的平衡，从而达到了优秀的匹配性能。

Aug, 2019

基于聚类的图像 - 文本图匹配模型桥接领域差距

通过融合图像和文本的多模态图形表示，我们通过考虑图像和文本描述符之间内在的语义结构得到领域不变的关键嵌入，从而实现领域泛化问题中的域不变特征学习。我们的模型在 CUB-DG 和 DomainBed 等大规模公共数据集上实验，取得了与或更好于这些数据集上的最新性能。

Oct, 2023