通过对目标令牌进行上下文注入,增强视觉语言模型中的跨提示可转移性
通过利用模态交互机制,我们提出了一种名为 CMI-Attack 的新型攻击方法,在保持语义不变的同时,利用嵌入指导和交互增强攻击文本的嵌入层,并利用交互图像梯度增强对文本和图像的扰动约束。在 Flickr30K 数据集的图像 - 文本检索任务中,CMI-Attack 相对于现有方法提高了 ALBEF、TCL、CLIP_ViT 和 CLIP_CNN 的转移成功率 8.11%-16.75%。此外,CMI-Attack 在跨任务泛化情景中也表现出卓越性能,填补了 Vision-Language 预训练模型转移攻击领域的研究空白,揭示了模态交互对增强对抗鲁棒性的重要性。
Mar, 2024
通过 SmoothVLM 防御机制,本文针对视觉 - 语言模型中的补丁式对抗性提示注入进行研究,取得了成功的攻击率降低和上下文恢复率提高的平衡。
May, 2024
通过对最近的 VLP 模型的对抗性传递性进行第一次研究,我们观察到现有方法在传递性方面表现较低,这部分原因是由于对跨模态交互的利用不足。因此,我们提出了一种高传递性的集合级引导攻击(SGA)方法,该方法充分利用模态交互,并结合保留对齐的增强和跨模态引导。实验结果表明,SGA 能够生成强力传递到不同 VLP 模型上的对抗性示例,在多个下游视觉语言任务中,SGA 显著增强了从 ALBEF 到 TCL 的传递攻击的成功率,比现有技术至少提高了 9.78%,最高可达 30.21%。
Jul, 2023
通过将目标响应转化为目标图像,并从目标响应推断出合理的指令,我们提出了一种以指令为导向的有针对性攻击方法,该方法利用共享相同视觉编码器的本地替代模型来提取对抗示例和目标图像的指令感知特征,优化对抗示例以最小化这两个特征之间的距离,从而提高攻击性能和可迁移性。
Dec, 2023
利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要;我们提出了一种自适应集成方法,根据迁移难度有效地结合了 VLMs 的通用知识和任务特定知识,该方法在广泛的基准测试中始终优于所有基准线,尤其是在未知任务上表现出了其有效性。
Nov, 2023
通过对一些最先进的 VLM(Visual Language Model)进行分析,我们发现它们在执行 ICL(In-Context Learning)指令时存在一定的不足。为了验证这个猜想,我们提出了一种简单但令人惊讶地有效的策略,通过扩展一个常见的 VLM 对齐框架,实现 ICL 支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解,从而显著提升了 21.03% 的 ICL 表现(平均 11.3%),超过了最强 VLM 基线和多种 ICL 基准,并为 VLM 的 ICL 评估贡献了新的基准,并讨论了它们相对于现有技术的优势。
Mar, 2024
本文研究如何使图像 - 语言领域的大规模预训练模型具备上下文学习的能力,通过将自然语言处理领域的元学习应用于视觉 - 语言领域,并使用视觉编码器实现跨域转移学习,实验证明可以显著提高视觉问答任务的上下文学习能力,甚至可以补偿模型的大小并取得比基线模型更好的表现。
Jun, 2023
通过重新定义攻击目标并设计简单而有效的目标导向生成式提示注入策略(G2PIA),我们最大化纯文本和对抗文本之间的 KL 散度,从而在无查询条件下以较低的计算成本实现最佳攻击效果。在七个大型语言模型和四个数据集上的实验结果表明我们的攻击方法的有效性。
Apr, 2024