本文介绍了一种新的图像 - 文本多模态表示学习方法,该方法利用对抗学习概念进行多模态学习,不利用图像 - 文本对信息进行学习,只使用类别信息,其多模态特征的分布与利用图像 - 文本对信息进行学习的其他方法相比更为相似,并且具有通用的语义信息。该模型是端到端反向传播的,在其他多模态学习工作中易于扩展。
Dec, 2016
提出了一个自我监督学习框架中的视觉语言表示学习方法,引入了一种新的操作、损失和数据增强策略,其中将图像中最相关于对应的标题中某个单词的区域进行软掩蔽以生成多样的图像特征,然后通过多模态编码器计算出每个单词的条件视觉注意力来确定与其相关的区域,提出了一个用于图像文本对比学习(ITC)目标的焦点损失,并进行多模态数据增强以进行自我监督学习。
Apr, 2023
利用创新的跨模态关注机制和分层特征融合策略,将深度神经网络的高级抽象表示能力与自然语言处理模型的文本语义理解优势相结合,以实现图像和文本之间的深度融合和双向交互的多模态深度学习架构。实验证明,与现有的图像和文本匹配模型相比,优化后的新模型在一系列基准数据集上表现出显著的性能提升,并且在面对以前未见过的复杂情况时也能保持较高的匹配性能。
Jun, 2024
本文提出了一种新的系统,以区分性地嵌入图像和文本到共享的视觉 - 文本空间,通过实例损失和端到端学习的双路径卷积网络来解决图像和文本匹配问题,并在 Flickr 30k 和 MSCOCO 上达到了与最先进方法相当的准确度,同时在基于语言的人员检索中取得了很大的改进。
Nov, 2017
本文提出一种新的跨模态检索方法,利用生成式模型学习多模态数据的全局和本地特征,从而在 MSCOCO 数据集上实现了最先进的跨模态检索结果。
通过引入一种新的文本图像相互感知(TIMA)方法,这项工作提出了一种旨在在大规模基础模型中实现零 - shot 对抗鲁棒性并保持零 - shot 泛化的挑战,重点关注流行的对比语言图像预训练(CLIP)模型。该方法在小型对抗扰动下在零 - shot 对抗鲁棒性和泛化之间取得了可比的良好权衡,但在大型对抗扰动下未能实现良好的权衡。该方法在文本嵌入之间增加了最小超球能量(MHE)以提高文本嵌入的跨类别距离,并利用知识蒸馏保持了 MHE 调整后和原始文本嵌入之间的相似性,以保留不同类别之间的语义信息。此外,该方法还引入了一种文本感知图像(TAI)调整机制,在训练阶段通过基于文本距离的自适应边界(TAM)增加了图像嵌入之间的跨类别距离,并利用知识蒸馏保持了 Fine-tuning 后和预训练图像嵌入之间的相似性。广泛的实验结果证明了该方法的有效性,在防御各种对抗扰动的同时,保持了原始 CLIP 模型的零 - shot 泛化能力。
May, 2024
本文提出了一个基于身份感知的两阶段框架,通过新颖的 CMCE 损失函数和潜在的共同注意机制来提高文本 - 视觉匹配的准确性,实验证明其相对于先前的最先进方法取得了显著的性能改进。
Aug, 2017
研究了跨模态对齐的图像检索问题,提出了一种 IRRA 框架,并在三个公共数据集上获得了优于现有方法的最新成果。
Mar, 2023
我们提出了一个新的框架,使用基于排名的张量融合来显式学习准确的图像文本相似度函数,通过通用的跨模态重新排序方案实现了模型效果和模型复杂性之间的平衡,从而达到了优秀的匹配性能。
Aug, 2019
通过融合图像和文本的多模态图形表示,我们通过考虑图像和文本描述符之间内在的语义结构得到领域不变的关键嵌入,从而实现领域泛化问题中的域不变特征学习。我们的模型在 CUB-DG 和 DomainBed 等大规模公共数据集上实验,取得了与或更好于这些数据集上的最新性能。
Oct, 2023