基于 Transformer 的跨模态融合模型及其对抗训练 ——VQA 挑战赛 2021
使用预训练的多模态源模型生成对抗性图像 - 文本对来攻击目标 VQA 模型,并提出了一种新的 VQAttack 模型,通过设计的模块迭代生成图像和文本扰动,实验证明在转移攻击环境下,与现有方法相比,该模型具有有效性。
Feb, 2024
本研究提出了一种基于多模态 Transformer 架构的新型 TextVQA 模型,采用自我注意力机制进行不同模态的融合,并通过动态指针网络进行迭代式答案解码,相比于现有方法大幅度提高了 TextVQA 任务的性能。
Nov, 2019
本文研究了使用图像和文本扰动生成对黑盒微调模型进行攻击的新的实用任务,提出了 VLAttack 框架,通过融合单模态和多模态层次的图像和文本扰动来生成对抗样本,实验结果表明该框架在各项任务上攻击成功率最高,揭示了预训练 Vision-Language 模型部署中的一个重要盲点。
Oct, 2023
该论文通过展示如何使用双流 Transformer 和联合旋转不变性和对抗优化过程,实现了在 Brain-Score 2022 竞赛中排名第二,并在所有视觉类别中平均排名第一的第一个位置,并且在 V4 区域的可解释方差方面取得了最高的成绩。同时,该模型在 V4,IT 和 Behavior 方面的解释方差也优于 ResNet50 模型。此外,通过几项额外实验,论文支持了一个 “所有道路通往罗马” 的论点,这是通过联合优化规则来实现的,即使对于像 Vision Transformers 这样的非生物学模型。
Mar, 2022
利用问题条件的 2D 视图选择过程,将 2D 知识与 3D-VQA 系统进行整合,通过双 Transformer 结构紧密结合 2D 和 3D 模态,并捕捉模态之间的细粒度相关性,实现了面向 3D-VQA 的多模态基于 Transformer 的架构。
Feb, 2024
该研究展示了一个名为 METER 的多模态端到端 Transformer 框架,研究了如何设计和预训练一个完全基于 Transformer 的视听模型以及它们的性能,通过在多个维度上对模型设计进行分解,并使用预训练的增强模型,达到了相对于基于区域特征的模型更好的性能,即在 VQAv2 测试数据集上取得了 77.64% 的准确率,超过了以前的最优模型,并且在最佳情况下可以达到 80.54%的准确率。
Nov, 2021
通过引入 Adversarial VQA 作为一个新的大型 VQA 基准测试,我们发现非专业注释者可以轻松成功攻击 SOTA VQA 模型,而预训练模型和对抗训练方法在新基准测试中效果远不如 VQA v2 基准测试,并且我们的数据集可有效提高模型在其他稳健性 VQA 基准测试中的性能。
Jun, 2021
通过对最近的 VLP 模型的对抗性传递性进行第一次研究,我们观察到现有方法在传递性方面表现较低,这部分原因是由于对跨模态交互的利用不足。因此,我们提出了一种高传递性的集合级引导攻击(SGA)方法,该方法充分利用模态交互,并结合保留对齐的增强和跨模态引导。实验结果表明,SGA 能够生成强力传递到不同 VLP 模型上的对抗性示例,在多个下游视觉语言任务中,SGA 显著增强了从 ALBEF 到 TCL 的传递攻击的成功率,比现有技术至少提高了 9.78%,最高可达 30.21%。
Jul, 2023
本研究针对视觉 - 语言预训练模型(VLP)的鲁棒性问题进行研究,提出了一种名为协作多模态对抗攻击(Co-Attack)的新型攻击方法,以获得对不同视觉 - 语言下游任务和 VLP 模型的更好攻击性能。该研究结果提供了关于 VLP 模型的对抗鲁棒性的新认识,为其在更多实际场景中的安全可靠部署做出了贡献。
Jun, 2022
通过研究视觉语言模型(VLMs)的自适应对抗性鲁棒性,我们引入了一种多模态对抗性攻击策略,并在图像和文本编码器上采用多模态对比对抗性训练损失,以提高 CLIP 的对抗性鲁棒性。在 15 个数据集上进行的广泛实验表明,我们的方法显著提高了 CLIP 的对抗性鲁棒性,甚至在图像攻击的背景下,经过多模态对抗性攻击的模型表现出比仅进行图像攻击微调的模型更高的鲁棒性。
Apr, 2024