越狱快速攻击：一种针对扩散模型的可控对抗攻击

Apr, 2024

越狱快速攻击：一种针对扩散模型的可控对抗攻击

Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models

Jiachen Ma, Anda Cao, Zhiqing Xiao, Jie Zhang, Chao Ye...

TL;DR通过黑盒攻击方法和分类器自由引导的概念，本研究暴露和强调了现有防御机制的脆弱性，这给图像生成社区带来了安全问题。

Abstract

The fast advance of the image generation community has attracted attention worldwide. The safety issue needs to be further scrutinized and studied. There have been a few works around this area mostly achieving a

image generation community safety issue black-box attack method classifier-free guidance vulnerabilities

发现论文，激发创造

针对安全定向 LLM 的改进对抗样本生成

通过借鉴转移式攻击的思想，结合渐变式对抗性提示生成过程，我们改进了自动生成的对抗性示例以攻击白盒大语言模型，取得了显著的性能提升，同时也提出了新的见解和适当的方法组合。

May, 2024

图像劫持：对抗性图像能在运行时控制生成模型

基于图像输入的视觉语言模型（VLM）存在图像劫持问题，本研究发现了在运行时控制生成模型的对抗性图像劫持，并提出了一种名为 Behavior Matching 的通用方法来创建这种图像劫持，通过对 LLaVA-2 模型进行攻击实验发现，各种攻击方式成功率均在 90% 以上，这些发现对于基础模型的安全性提出了严重的担忧。

Sep, 2023

针对多模式大型语言模型的越狱攻击

该研究聚焦于多模态大型语言模型（MLLMs）的越狱攻击，旨在引导 MLLMs 生成令人反感的响应来对抗危险用户查询。提出了一种基于最大似然的算法，可以寻找 “图像越狱提示”（imgJP），在多个未知提示和图像上实现对 MLLMs 的越狱。我们的方法具有很强的模型可迁移性，生成的 imgJP 可被转移到各种模型中，包括 MiniGPT-v2、LLaVA、InstructBLIP 和 mPLUG-Owl2 等，以黑盒方式进行越狱。此外，我们揭示了 MLLM 越狱和 LLM 越狱之间的联系。因此，我们引入了一种基于构造的方法，将我们的方法应用于 LLM 越狱，比当前最先进的方法更高效。代码可在此处找到。警告：一些由语言模型生成的内容可能对某些读者具有冒犯性。

Feb, 2024

勤奋的鲍勃通过及时对抗调整反击越狱

我们提出了一种名为 Prompt Adversarial Tuning (PAT) 的方法来训练一个防御控制机制，将其作为用户提示的前缀来实施我们的防御策略，该方法在黑盒和白盒设置中表现有效，在几乎不影响操作效率的情况下，将高级攻击的成功率降低到几乎为 0，同时仍然保持对简单问题的良性回答率为 80%。我们的研究在 LLM 安全领域可能为未来的探索开辟新的视角。

Feb, 2024

通过双模式对抗启示破解视觉语言模型

利用 Bi-Modal Adversarial Prompt Attack 方法，通过优化文字和视觉提示共同实施监狱突破攻击，大幅提高攻击成功率。

Jun, 2024

使用扩散模型进行受控训练数据生成

这项研究提出了一种利用反馈机制来控制文本到图像生成模型，以生成对监督学习特别有用的训练数据的方法，并且通过引入指导目标分布的反馈机制，演示了该方法在不同任务、数据集和架构上相对于开环方法的有效性。

Mar, 2024

扩散模型的隐形后门攻击

本文介绍了一种创新而多功能的优化框架，用于获取不可见的触发器，增强插入后门的隐蔽性和韧性。我们的研究首次展示了在文本引导的图像编辑和修复流程中进行扩散模型后门注入的能力，同时还发现条件生成中的后门直接适用于模型水印验证，进一步提升了所提框架的重要性。多个常用采样器和数据集上的广泛实验证实了所提框架的有效性和隐蔽性。

Jun, 2024

通过有针对性的攻击揭示稳定扩散中的漏洞

本研究针对 Stable Diffusion 模型的脆弱性，提出一种生成特定图像的对抗性提示框架，并通过揭示导致模型脆弱性的机制来证明方法的有效性。

Jan, 2024

通过自对抗攻击和系统提示实施对 GPT-4V 的越狱

通过从 GPT-4V 中成功窃取内部系统提示并使用 SASP（自我对抗攻击系统提示）方法进行监狱破解，本研究发现了 Multimodal Large Language Models（MLLMs）的潜在安全风险并提出了相应的防御方法，以显著降低监狱破解的成功率。

Nov, 2023

LLMs 在实践中可以自我防御破解：一篇展望性论文

Jailbreaking is an emerging adversarial attack that bypasses the safety alignment deployed in off-the-shelf large language models. This paper proposes a lightweight yet practical defense called SELFDEFEND, which can defend against all existing jailbreak attacks with minimal delay for jailbreak prompts and negligible delay for normal user prompts.

Feb, 2024