越狱快速攻击:一种针对扩散模型的可控对抗攻击
通过借鉴转移式攻击的思想,结合渐变式对抗性提示生成过程,我们改进了自动生成的对抗性示例以攻击白盒大语言模型,取得了显著的性能提升,同时也提出了新的见解和适当的方法组合。
May, 2024
基于图像输入的视觉语言模型(VLM)存在图像劫持问题,本研究发现了在运行时控制生成模型的对抗性图像劫持,并提出了一种名为 Behavior Matching 的通用方法来创建这种图像劫持,通过对 LLaVA-2 模型进行攻击实验发现,各种攻击方式成功率均在 90% 以上,这些发现对于基础模型的安全性提出了严重的担忧。
Sep, 2023
该研究聚焦于多模态大型语言模型(MLLMs)的越狱攻击,旨在引导 MLLMs 生成令人反感的响应来对抗危险用户查询。提出了一种基于最大似然的算法,可以寻找 “图像越狱提示”(imgJP),在多个未知提示和图像上实现对 MLLMs 的越狱。我们的方法具有很强的模型可迁移性,生成的 imgJP 可被转移到各种模型中,包括 MiniGPT-v2、LLaVA、InstructBLIP 和 mPLUG-Owl2 等,以黑盒方式进行越狱。此外,我们揭示了 MLLM 越狱和 LLM 越狱之间的联系。因此,我们引入了一种基于构造的方法,将我们的方法应用于 LLM 越狱,比当前最先进的方法更高效。代码可在此处找到。警告:一些由语言模型生成的内容可能对某些读者具有冒犯性。
Feb, 2024
我们提出了一种名为 Prompt Adversarial Tuning (PAT) 的方法来训练一个防御控制机制,将其作为用户提示的前缀来实施我们的防御策略,该方法在黑盒和白盒设置中表现有效,在几乎不影响操作效率的情况下,将高级攻击的成功率降低到几乎为 0,同时仍然保持对简单问题的良性回答率为 80%。我们的研究在 LLM 安全领域可能为未来的探索开辟新的视角。
Feb, 2024
这项研究提出了一种利用反馈机制来控制文本到图像生成模型,以生成对监督学习特别有用的训练数据的方法,并且通过引入指导目标分布的反馈机制,演示了该方法在不同任务、数据集和架构上相对于开环方法的有效性。
Mar, 2024
本文介绍了一种创新而多功能的优化框架,用于获取不可见的触发器,增强插入后门的隐蔽性和韧性。我们的研究首次展示了在文本引导的图像编辑和修复流程中进行扩散模型后门注入的能力,同时还发现条件生成中的后门直接适用于模型水印验证,进一步提升了所提框架的重要性。多个常用采样器和数据集上的广泛实验证实了所提框架的有效性和隐蔽性。
Jun, 2024
本研究针对 Stable Diffusion 模型的脆弱性,提出一种生成特定图像的对抗性提示框架,并通过揭示导致模型脆弱性的机制来证明方法的有效性。
Jan, 2024
通过从 GPT-4V 中成功窃取内部系统提示并使用 SASP(自我对抗攻击系统提示)方法进行监狱破解,本研究发现了 Multimodal Large Language Models(MLLMs)的潜在安全风险并提出了相应的防御方法,以显著降低监狱破解的成功率。
Nov, 2023
Jailbreaking is an emerging adversarial attack that bypasses the safety alignment deployed in off-the-shelf large language models. This paper proposes a lightweight yet practical defense called SELFDEFEND, which can defend against all existing jailbreak attacks with minimal delay for jailbreak prompts and negligible delay for normal user prompts.
Feb, 2024