大规模视觉语言模型攻击综述：资源、进展与未来趋势

Jul, 2024

大规模视觉语言模型攻击综述：资源、进展与未来趋势

A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends

Daizong Liu, Mingyu Yang, Xiaoye Qu, Pan Zhou, Wei Hu...

TL;DR本文综述了现有的大型视觉语言模型（LVLMs）攻击的各种形式，包括对模型输出进行操纵的对抗性攻击，利用模型漏洞进行未经授权行为的越狱攻击，通过修饰提示类型和模式进行的提示注入攻击以及影响模型训练的数据污染攻击，并讨论了未来的研究方向。我们希望通过本综述揭示LVLM的脆弱性，激发更多研究人员探索和减轻LVLM发展中的潜在安全问题。

Abstract

With the significant development of large models in recent years, large vision-language models (lvlms) have demonstrated remarkable capabilities across a wide range of multimodal understanding and reasoning tasks

发现论文，激发创造

评估大规模视觉语言模型的对抗鲁棒性

本研究评估了开源大型视觉-语言模型的鲁棒性，发现黑盒查询可以进一步提高定向逃避的效果。研究结果为大型视觉-语言模型的敌对脆弱性提供了量化的理解，并呼吁在实际部署之前对它们的潜在安全漏洞进行更全面的研究。

May, 2023

视觉对抗样本破解大型语言模型

本文介绍了在大型语言模型中引入视觉的趋势。讨论了这个趋势的安全和安全风险，指出了高维视觉输入空间本质上是对抗性攻击的理想介质，以及这种趋势的广泛功能使得视觉攻击者有更多的攻击目标。还研究了MiniGPT-4对视觉对抗性例子进行了安全机制，并发现对抗性例子可以打破安全机制并生成有害内容。因此，我们强调了对于安全使用视觉语言模型的紧迫需要，需要进行全面的风险评估，强大的防御措施和实施负责任的工作实践。

Jun, 2023

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023

InstructTA：针对大型视觉语言模型的指导式目标攻击

通过将目标响应转化为目标图像，并从目标响应推断出合理的指令，我们提出了一种以指令为导向的有针对性攻击方法，该方法利用共享相同视觉编码器的本地替代模型来提取对抗示例和目标图像的指令感知特征，优化对抗示例以最小化这两个特征之间的距离，从而提高攻击性能和可迁移性。

Dec, 2023

AVIBench: 评估大型视觉语言模型在对抗性视觉指导下的稳健性

评估大规模视觉-语言模型（LVLMs）对敌对性视觉指令的稳健性和内容偏见的重要性，引入了AVIBench框架，通过多模态任务和内容偏见生成各类敌对性视觉指令进行全面评估。发现现有LVLMs存在漏洞和内在偏见，强调提高LVLMs的稳健性、安全性和公平性的重要性。

Mar, 2024

狂放的伊卡洛斯：多模态大语言模型安全中图像输入的潜在危险调研

多模态大型语言模型（MLLMs）的整合增强了其功能，但也带来了安全漏洞，本研究旨在分析并总结MLLMs的攻击和防御机制，并提出未来研究的建议，以深化对MLLM安全挑战的学术理解和发展可信赖的MLLM系统。

Apr, 2024

大型语言模型中的漏洞和保护探索: 调查

大型语言模型是各种人工智能应用中的关键组件，理解它们的安全漏洞和防御机制的有效性至关重要。本文调查了LLMs的安全挑战，重点关注两个主要领域：Prompt Hacking和Adversarial Attacks，每个领域都有特定类型的威胁。通过对Prompt Hacking和Adversarial Attacks的分析，研究了它们的工作原理、潜在影响以及缓解方法。调查强调了这些安全挑战，并讨论了保护LLMs免受这些威胁的强大防御框架。通过详细阐述这些安全问题，调查为抵御复杂攻击的坚韧人工智能系统的构建提供了宝贵的讨论。

Jun, 2024

通过双模式对抗启示破解视觉语言模型

利用 Bi-Modal Adversarial Prompt Attack 方法，通过优化文字和视觉提示共同实施监狱突破攻击，大幅提高攻击成功率。

Jun, 2024

重访大型视觉语言模型的后门攻击

使用指令调优增强大规模视觉语言模型(LVLMs)会提高安全风险，因其开放性可能导致后门攻击。本研究首次经验性地考察了指令调优LVLMs期间后门攻击的普适性，揭示了在实际场景中大多数后门策略的某些限制。通过定量评估对视觉和文本领域存在偏差的六种典型后门攻击在图像字幕基准测试上的普适性，我们的研究结果表明，攻击的普适性与后门触发器与特定图像/模型的不相关性以及触发器模式的偏好相关。此外，我们基于以上关键观察修改了现有的后门攻击方法，在跨域场景的普适性方面取得了显著改进(+86%攻击成功率)。值得注意的是，即使没有访问指令数据集，也可以使用极低的污染率(0.2%)成功毒化多模态指令集，攻击成功率超过97%。本研究强调即使是简单的传统后门策略也对LVLMs构成严重威胁，需要更多关注和深入研究。

Jun, 2024

走向对抗性强大的视觉语言模型：设计选择和提示格式技术的洞察

机视语言模型在研究和实际应用中取得了突破，但其对抗性攻击的鲁棒性至关重要。本研究系统地研究了模型设计选择对机视语言模型在图像攻击方面的抗打击能力的影响。此外，我们引入了新颖且经济的方法通过提示格式来增强鲁棒性。通过改写问题和建议可能的对抗性扰动，我们在抵御强大的图像攻击（如Auto-PGD）方面实现了显著的改进。我们的发现为开发更具鲁棒性的机视语言模型提供了重要指导，尤其是在安全关键环境中的部署。

Jul, 2024