大规模对抗训练用于视觉与语言表示学习
本文研究了使用图像和文本扰动生成对黑盒微调模型进行攻击的新的实用任务,提出了 VLAttack 框架,通过融合单模态和多模态层次的图像和文本扰动来生成对抗样本,实验结果表明该框架在各项任务上攻击成功率最高,揭示了预训练 Vision-Language 模型部署中的一个重要盲点。
Oct, 2023
通过系统评估,本研究首次证明了在训练数据的两两复杂性增加时,标准视觉语言模型在学习图像区域与文本属性之间的细粒度关系方面存在性能下降问题,为了解决这个问题,研究引入了 ViLLA,通过两个组件(自监督映射模型和对比视觉语言模型)来训练捕捉复杂数据集中图像区域与文本属性的细粒度关系,实验证明 ViLLA 在细粒度推理任务(如零样本目标检测和检索)上表现优于其他视觉语言模型。
Aug, 2023
本研究针对视觉 - 语言预训练模型(VLP)的鲁棒性问题进行研究,提出了一种名为协作多模态对抗攻击(Co-Attack)的新型攻击方法,以获得对不同视觉 - 语言下游任务和 VLP 模型的更好攻击性能。该研究结果提供了关于 VLP 模型的对抗鲁棒性的新认识,为其在更多实际场景中的安全可靠部署做出了贡献。
Jun, 2022
本文提出了一种名为 ViLTA 的新方法,由两个组件组成,旨在进一步促进模型在图像和文本对之间学习细粒度表示,采用交叉蒸馏方法生成软标签以提高模型的稳健性,并利用上下文合成硬负样本来增加图像 - 文本匹配的难度,从而在各种视觉语言任务上取得更好的性能。大量的基准数据集实验证明了 ViLTA 的有效性和其在视觉语言预训练中的潜力。
Aug, 2023
通过对最近的 VLP 模型的对抗性传递性进行第一次研究,我们观察到现有方法在传递性方面表现较低,这部分原因是由于对跨模态交互的利用不足。因此,我们提出了一种高传递性的集合级引导攻击(SGA)方法,该方法充分利用模态交互,并结合保留对齐的增强和跨模态引导。实验结果表明,SGA 能够生成强力传递到不同 VLP 模型上的对抗性示例,在多个下游视觉语言任务中,SGA 显著增强了从 ALBEF 到 TCL 的传递攻击的成功率,比现有技术至少提高了 9.78%,最高可达 30.21%。
Jul, 2023
本文提出了一种高分辨率和多样化的视频 - 语言预训练模型(HD-VILA),它利用一个混合 Transformer 学习丰富的时空特征以及文本特征的交互,取得了 10 个 VL 理解任务和 2 个文本到视觉生成任务的最新结果
Nov, 2021
通过逐步可控的比较,我们研究了增强大语言模型 (LLM) 向视觉语言模型 (VLM) 扩展的 VLM 预训练过程的设计选择。我们通过增强的预训练方法构建了 VILA,一系列视觉语言模型,无需额外的修饰即可在主要基准测试中始终优于当前最先进的模型。多模态预训练还有助于揭示 VILA 的吸引人属性,包括多图像推理、增强的上下文学习和更好的世界知识。
Dec, 2023
使用预训练的多模态源模型生成对抗性图像 - 文本对来攻击目标 VQA 模型,并提出了一种新的 VQAttack 模型,通过设计的模块迭代生成图像和文本扰动,实验证明在转移攻击环境下,与现有方法相比,该模型具有有效性。
Feb, 2024
本文提出了一种无监督的图像与自然语言跨模态预训练方法,通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估,取得了在无监督设置下的最佳性能。
Mar, 2022
本篇研究综述了当下 Vision-and-Language 领域内的预训练模型,并归纳总结了相关预训练技术、训练集以及下游任务。同时,文章还讨论了未来研究的多个方向。
Jul, 2022