非对齐万事通：或在多模态模型中将任何文本对齐到任何图像

Jul, 2024

非对齐万事通：或在多模态模型中将任何文本对齐到任何图像

Unaligning Everything: Or Aligning Any Text to Any Image in Multimodal Models

Shaeke Salman, Md Montasir Bin Shams, Xiuwen Liu

TL;DR通过共享嵌入空间，新兴的多模态模型展示了空前的零样本能力。然而，如果不同的模态存在错位，共享嵌入空间可能会带来新的弱点。本文通过最小程度地修改图像来匹配给定文本的嵌入，展示了使用最近开发的有效基于梯度的过程，证明了我们能够通过不可察觉的对抗性攻击将可区分文本的嵌入与任意图像对齐，揭示了语义不相关的图像可以拥有相同文本的嵌入，并且在视觉上难以区分的图像可以与非常不同的文本的嵌入匹配。我们的技术在应用到来自多个来源的文本数据集和图像时达到了 100% 的成功率。如果不能克服这个弱点，多模态模型无法在语义上有意义地稳定地对齐来自不同模态的输入。

Abstract

Utilizing a shared embedding space, emerging multimodal models exhibit unprecedented zero-shot capabilities. However, the shared embedding space<

multimodal models shared embedding space adversarial attacks text-image alignment vulnerabilities

发现论文，激发创造

共享多模态嵌入的无监督图像字幕生成

通过共享的、结构化的视觉概念潜在空间，将图像特征转化到语义向量嵌入空间中，并使用同一语言模型将其解码为场景描述，无需明确监督来了解图像；这种转化借助于暴露于图像 / 标题数据分布之外的大型文本语料库，并且具有鲁棒性。

Aug, 2019

语音和文本嵌入空间的无监督交叉模态对齐

该研究提出了一种无监督的跨模态对齐框架，通过对抗训练和优化过程来实现语音和文本的嵌入空间对齐，从而帮助开发对低资源语言进行语音识别和语音到文本翻译的自动化系统，并且在分类和翻译任务上的表现与监督的方法相媲美。

May, 2018

基于文本的多模态学习对齐

该研究论文针对多模态学习中的模态不匹配问题，提出了一种创新方法，即文本为中心的多模态学习对齐（TAMML）方法。通过利用文本的独特特性作为统一的语义空间，TAMML 在处理未见过的、多样化的和不可预测的模态组合时取得了显著改进。TAMML 不仅适应不同的模态，还保持了强大的性能，展示了基于基本模型的潜力，克服了传统固定模态框架中嵌入表示的局限性。该研究为领域做出了贡献，为模态可用性动态和不确定性的实际应用提供了灵活有效的解决方案。

Feb, 2024

在单个 GPU 上的数据有效多模态融合

FuseMix 是一种多模态增强方案，在任意预训练的单模态编码器的潜空间上操作，通过使用 FuseMix 进行多模态对齐，我们以远低于 CLIP 的计算和数据成本，在图像 - 文本和音频 - 文本检索任务中实现具有竞争力的性能。

Dec, 2023

语义扰动下的互模态对抗攻击

我们提出了一种新的方法，在互模态优化方案中生成对抗性攻击，利用预训练的 CLIP 模型进行视觉攻击和文本防御，并通过迭代训练策略实现攻击的转移性。我们的方法在多个基准数据集上得到了验证，表明我们的互模态攻击策略能够有效产生高可转移攻击，并且优于最先进的攻击方法，可作为即插即用解决方案。

Dec, 2023

跨模态检索任务的多语言词嵌入对齐

提出了一种新的方法来学习多模态多语言嵌入，用于匹配两种语言中图像及其相关标题，结合两个现有的目标函数，在模型中调整现有语言之间的词嵌入对齐，证明该方法实现了更好的泛化，在文本 - 图像和图像 - 文本检索任务中，以及标题 - 标题相似性任务中取得了最先进的性能，使用了 Multi30k 和 Microsoft-COCO 两个多模态多语言数据集进行评估。

Oct, 2019

语音文本语义对齐嵌入的分析

本论文研究联合语音 - 文本 Embeddings 空间的内在属性，借助自动语音识别，通过多任务预训练场景实现语义对齐，利用定量检索精度度量语义对齐，进行了深入分析。

Apr, 2022

使用多语言文本进行图像搜索：图像和文本之间的跨模态学习方法

本文提出一个使用多语言嵌入词汇表达图像语义信息的框架，将图像和文本嵌入到一个唯一的分布向量空间中，从而使得我们可以使用描述图像内容的文本查询来搜索图像，同时也可以使用图像相似性，我们使用实证研究证明了该方法的效率。

Mar, 2019

麻省理工学院提出了新的多模态混合方法 —— 测地线多模态混合，以实现强化微调

本研究提供了一种理解多模态嵌入的视角，并提出了一种新的端到端微调方法，以鼓励更好的统一性和对齐得分，通过大量的检索、分类和结构感知任务的实验，证明了我们的地球多模态 Mixup 学习到了一个强健的表示，并在各种下游任务上提供了改进的性能。

Mar, 2022

ASIF: 将耦合数据转换为多模态无需训练的单一模态模型

本文通过使用单领域编码器和较少的图文对，证明可以在不进行任何训练的情况下创建一个共同的空间，并且该模型对于基于图文模型的转移效果很好。

Oct, 2022