基于融合模型的多模态分类器对跨模态内容稀释的鲁棒性

EMNLPNov, 2022

基于融合模型的多模态分类器对跨模态内容稀释的鲁棒性

Robustness of Fusion-based Multimodal Classifiers to Cross-Modal Content Dilutions

Gaurav Verma, Vishwa Vinay, Ryan A. Rossi, Srijan Kumar

TL;DR研究了多模态分类器对于跨模态稀释的抗干扰性，开发了一种在保持与图像和已有文本相关性和主题一致的前提下，能加剧多模态分类器失效的文本生成模型，并在危机人道主义和情感检测任务上进行了实验，结果表明该模型所生成的稀释文本能在更高程度上展示多模态分类器脆弱性，具有更高的相关性和主题一致性，有望进一步鼓励研究深度多模态模型对实际场景变化的抗干扰能力。

Abstract

As multimodal learning finds applications in a wide variety of high-stakes societal tasks, investigating their robustness becomes important. Existing work has focused on understanding the →

multimodal learning robustness cross-modal dilutions image + text task-specific fusion-based multimodal classifiers

发现论文，激发创造

跨模态属性插入，评估视觉语言学习的鲁棒性

本文提出了一种跨模态属性插入的策略，该策略将图像中的视觉属性插入到文本数据中，用于深度视觉和语言模型的鲁棒性评估，并发现相对于纯文本数据，跨模态属性插入提高了深度视觉和语言模型的数据增广质量。

Jun, 2023

防御多模融合模型免受单一来源的攻击

本研究旨在分析多模态神经网络在单模态最坏情况下 (即对抗性攻击) 的鲁棒性，并提出了一种对抗性融合策略，该策略与现有方法相比，可显著提高单源鲁棒性，并在不影响干净数据性能的情况下，在多种多模态任务上实现了良好的表现。

Jun, 2022

多模态学习中的鲁棒性

本文提出了一个多模态鲁棒性框架，以系统分析常见的多模态表示学习方法，并针对其中的鲁棒性缺陷提出了两种干预技术，能够在三个数据集上提高 1.5-4 倍的鲁棒性。同时，通过在可能存在的额外模态上更好地利用这些干预技术，本文的算法在 AudioSet 20K 上取得了 44.2mAP 的优异表现。

Apr, 2023

深度学习多模态数据融合中对抗样本的脆弱性研究

探究了目前多模态融合模型是否利用补充信息来防御对抗攻击，通过在 MFNet 上应用 FGSM 和 PGD 等对抗攻击进行实验验证，发现多模态融合模型在对抗攻击方面仍然存在脆弱性。

May, 2020

基于多模态基础模型的鲁棒多模态学习

提出了一种简单而有效的框架 TRML，即利用多模态基础模型进行鲁棒多模态学习，通过生成虚拟模态替代丢失模态，并对生成和丢失模态之间的语义空间进行对齐，从而捕捉缺失模态的语义。在完整模态的情况下，我们的模型通过利用交叉模态语义空间的对齐来捕捉丢失模态的语义。实验证明我们的方法在三个多模态情感分析基准数据集 CMU-MOSI、CMU-MOSEI 和 MELD 上具有优势。

Jan, 2024

上下文融合增强图像模糊鲁棒性

哺乳动物的大脑通过整合特定感官模式的脑区的信息来处理复杂推理，从而提高鲁棒性和泛化能力。我们开发了一个融合模型，结合了在 Imagenet 和 Places365 上训练的 CNN 的背景和前景特征，测试了它对人可感知变化的抵抗能力，并在 MS COCO 上进行了验证。融合模型提高了鲁棒性，特别适用于具有更大上下文变异性的类别。我们提出的多模态整合解决方案为增强鲁棒性提供了一种新方法，并可能与现有方法相辅相成。

Jun, 2024

在真实灰盒子假设下的多模型对抗评估

本研究针对多模态（图像 + 文本）模型的弱点进行分析，并提出了基于部分模型知识和访问下的攻击方法。同时，我们发现对多模态分类进行的攻击比仅仅对单模态文本或图像分类的攻击更强，而我们尝试的对多模态分类器进行的单模态图像攻击比文本的字符增强攻击更为有效。

Nov, 2020

保持语义领域对稳健跨模态检索的影响

本篇研究提出了一种方法，使用特定的 loss 函数，在保持图像和文本子空间内的语义连贯性的同时鼓励它们之间的语义协同，并改进了基线模型，以实现跨模态检索。

Jul, 2020

视觉语言模型的部分再集中软最大值损失函数鲁棒性

通过修改预训练的多模态模型的损失函数，限制前 K 个 softmax 输出，本研究在评估和评分基础上展示了，经过微调后，预训练模型的对抗鲁棒性可以显著提高，抵御常见攻击。后续研究应该探索这种损失函数的输出多样性、泛化性以及鲁棒性与性能之间的权衡关系。本文代码会在接受后提供。

Feb, 2024

基于文本引导的鲁棒性基准测试

本研究探讨了图像分类器对以文字为导向的失真的鲁棒性，并利用扩散模型对图像进行不同域的编辑，研究结果表明：在不同语言为基础的失真和编辑域中，图像分类器的性能显著下降，卷积模型比变压器架构更为鲁棒，同时，常见的数据扩充技术可以提高原始数据和编辑图像的性能。

Apr, 2023