通过对抗后向传播实现图像文本多模态表示学习

Dec, 2016

通过对抗后向传播实现图像文本多模态表示学习

Image-Text Multi-Modal Representation Learning by Adversarial Backpropagation

Gwangbeen Park, Woobin Im

TL;DR本文介绍了一种新的图像 - 文本多模态表示学习方法，该方法利用对抗学习概念进行多模态学习，不利用图像 - 文本对信息进行学习，只使用类别信息，其多模态特征的分布与利用图像 - 文本对信息进行学习的其他方法相比更为相似，并且具有通用的语义信息。该模型是端到端反向传播的，在其他多模态学习工作中易于扩展。

Abstract

We present novel method for image-text multi-modal representation learning. In our knowledge, this work is the first approach of applying adversarial learning concept to multi-modal learning and not exploiting

image-text representation learning adversarial learning multi-modal feature category information

发现论文，激发创造

对抗表示学习用于文本到图像匹配

本文提出了一种基于 TIMAM 和 BERT 的文本图像匹配模型，该模型可以学习到模态不变的特征表示，在四个公开数据集上取得了最优的交叉模态匹配性能，排名 1 的准确率提高了 2％到 5％。

Aug, 2019

图像 - 文本匹配的先进多模态深度学习架构

利用创新的跨模态关注机制和分层特征融合策略，将深度神经网络的高级抽象表示能力与自然语言处理模型的文本语义理解优势相结合，以实现图像和文本之间的深度融合和双向交互的多模态深度学习架构。实验证明，与现有的图像和文本匹配模型相比，优化后的新模型在一系列基准数据集上表现出显著的性能提升，并且在面对以前未见过的复杂情况时也能保持较高的匹配性能。

Jun, 2024

极端学习图像多模态深度网络压缩

本文提出了一种文字引导图像压缩的多模态机器学习方法，通过使用文本的语义信息来引导图像压缩，以实现更好的压缩性能，包括采用图像 - 文本注意力模块和改进的多模态语义一致性损失函数。实验证明，该方法能够在极低比特率下获得较好的视觉效果，并且即使与最先进的技术相比，其性能也可以相媲美或超越。

Apr, 2023

使用文本驱动的软掩膜进行多模态表征学习

提出了一个自我监督学习框架中的视觉语言表示学习方法，引入了一种新的操作、损失和数据增强策略，其中将图像中最相关于对应的标题中某个单词的区域进行软掩蔽以生成多样的图像特征，然后通过多模态编码器计算出每个单词的条件视觉注意力来确定与其相关的区域，提出了一个用于图像文本对比学习（ITC）目标的焦点损失，并进行多模态数据增强以进行自我监督学习。

Apr, 2023

CAMP: 文本 - 图像检索的跨模态自适应消息传递

本文提出了一种跨模态自适应信息传递模型（Cross-modal Adaptive Message Passing, CAMP），通过自适应地控制跨模态信息的流动，全面且精细地考虑跨模态交互，使用硬负样本二元交叉熵损失函数进行训练，在 COCO 和 Flickr30k 上显著超过最先进方法，显示出了我们方法的有效性。

Sep, 2019

带有实例损失的双路径卷积图像 - 文本嵌入

本文提出了一种新的系统，以区分性地嵌入图像和文本到共享的视觉 - 文本空间，通过实例损失和端到端学习的双路径卷积网络来解决图像和文本匹配问题，并在 Flickr 30k 和 MSCOCO 上达到了与最先进方法相当的准确度，同时在基于语言的人员检索中取得了很大的改进。

Nov, 2017

文本与图像的多模态表示学习

该论文利用多模式人工智能和矩阵分解技术进行表示学习，通过同时处理文本和图像数据，评估所得到的学习表示，并使用下游分类和回归任务对其进行评估。

Apr, 2022

保持语义领域对稳健跨模态检索的影响

本篇研究提出了一种方法，使用特定的 loss 函数，在保持图像和文本子空间内的语义连贯性的同时鼓励它们之间的语义协同，并改进了基线模型，以实现跨模态检索。

Jul, 2020

图像引导故事结尾生成的迭代对抗攻击

本研究提出了一种迭代的对抗攻击方法（Iterative-attack），该方法融合了图像和文本攻击，可以更有效地搜索对抗性的文本和图像，从而提高多模态文本生成模型的对抗鲁棒性。实验结果表明，该方法优于现有的单模态和非迭代多模态攻击方法，这表明可以提高多模态文本生成模型的安全性。

May, 2023

语言理解通用多模态表示

本文提出了一种新方法来将视觉信息作为协助信号用于 NLP 任务，使用 Transformer 编码器和卷积神经网络来对文本和图像进行编码，通过注意力层将两种模态的表征进行融合，实验结果表明，该方法在不同的任务和语言中都具有很好的效果。

Jan, 2023