可扩展和可迁移的语言模型黑盒越狱通过角色调制

Nov, 2023

可扩展和可迁移的语言模型黑盒越狱通过角色调制

Scalable and Transferable Black-Box Jailbreaks for Language Models via Persona Modulation

Rusheb Shah, Quentin Feuillade--Montixi, Soroush Pour, Arush Tagade, Stephen Casper...

TL;DR探讨了人设调节作为黑盒越狱方法，用于引导目标模型具备遵循有害指令的个性。我们利用自动生成的越狱命令展示了多种有害完成操作，包括合成甲基苯丙胺、制造炸弹和洗钱的详细指南。这些自动化攻击在 GPT-4 中的有害完成率为 42.5%，是调节之前（0.23%）的 185 倍。这些命令还传输到 Claude 2 和 Vicuna，他们的有害完成率分别为 61.0% 和 35.9%。我们的研究揭示了商用大型语言模型中的又一个漏洞，并强调对更全面的安全保护措施的需求。

Abstract

Despite efforts to align large language models to produce harmless responses, they are still vulnerable to jailbreak prompts that elicit unrestricted behaviour. In this work, we investigate persona modulation as

persona modulation jailbreak prompts harmful completions automated attacks comprehensive safeguards

发现论文，激发创造

如何请求决定一切：针对越狱攻击的简单黑盒方法

通过使用以 ChatGPT 为目标的简单黑盒方法，本研究有效地生成越过伦理规定的提示，突破了现有方法的复杂性和计算成本的限制，该方法通过 LLM 自身将有害的提示迭代地重写为无害表达式，该研究结果表明，创建有效的越狱提示比以前认为的更简单，并且黑盒越狱攻击构成了更严重的安全威胁。

Jan, 2024

使用词替代密码破解专有大型语言模型

大型语言模型容易受到称为 Jailbreak 的创新提示的影响，本文提出使用加密技术对越狱提示进行编码，实验结果表明我们提出的越狱方法在 ChatGPT、GPT-4 和 Gemini-Pro 等先进专有模型上的攻击成功率高达 59.42％，此外，我们还讨论了这些模型的过度防御性。

Feb, 2024

针对多模式大型语言模型的越狱攻击

该研究聚焦于多模态大型语言模型（MLLMs）的越狱攻击，旨在引导 MLLMs 生成令人反感的响应来对抗危险用户查询。提出了一种基于最大似然的算法，可以寻找 “图像越狱提示”（imgJP），在多个未知提示和图像上实现对 MLLMs 的越狱。我们的方法具有很强的模型可迁移性，生成的 imgJP 可被转移到各种模型中，包括 MiniGPT-v2、LLaVA、InstructBLIP 和 mPLUG-Owl2 等，以黑盒方式进行越狱。此外，我们揭示了 MLLM 越狱和 LLM 越狱之间的联系。因此，我们引入了一种基于构造的方法，将我们的方法应用于 LLM 越狱，比当前最先进的方法更高效。代码可在此处找到。警告：一些由语言模型生成的内容可能对某些读者具有冒犯性。

Feb, 2024

现在做任何事情”：对大型语言模型中的自由研究提示进行特征化和评估

通过对 wild 中的 jailbreak prompts 进行第一次测量研究，我们发现了 jailbreak prompts 的独特特征以及其攻击策略，并评估了当前 LLMs 和保护措施在各种情况下不能充分防御 jailbreak prompts 的潜在危害，这为研究界和 LLM 供应商在推动更安全和监管的 LLMs 方面提供了指导。

Aug, 2023

大规模语言模型中的多语言越狱挑战

大型语言模型（LLMs）存在潜在的安全隐患，因此需要发展预防措施。本研究揭示了 LLMs 内存在的多语言破解挑战，并针对意外和恶意的风险场景进行了探讨。实验结果显示，在多语言环境中，通过自卫框架进行训练可以显著减少 LLMs 生成的不安全内容。

Oct, 2023

通过双模式对抗启示破解视觉语言模型

利用 Bi-Modal Adversarial Prompt Attack 方法，通过优化文字和视觉提示共同实施监狱突破攻击，大幅提高攻击成功率。

Jun, 2024

二十次查询中破解黑盒大型语言模型

大型语言模型对人类价值观的符合日益受到关注。我们提出了 Prompt Automatic Iterative Refinement (PAIR) 算法，用于生成黑盒访问的语义越狱，以理解固有弱点并防止未来滥用。PAIR 支持自动生成越狱攻击目标模型的黑盒查询，相对于现有算法，往往只需少于二十次查询即可成功越狱。同时，PAIR 在开源和闭源的 GPT-3.5/4、Vicuna 和 PaLM-2 等 LLM 上取得了有竞争力的越狱成功率和可传递性。

Oct, 2023

自我欺骗：大型语言模型语义防火墙的逆渗透

通过研究语言模型监管的方法和攻击，本文提出一种自动破解监管的方法，即引入语意防火墙概念并提供三种技术实现方式，从而成功地实施了 “自欺” 攻击。实验证明该方法的有效性，为未来研究提供了启示。

Aug, 2023

通过密码字符对大型语言模型进行越狱以对抗审核管控

引入 JAMBench 作为一个有害行为基准测试，通过 160 个手工制作的指令来触发和评估适度保护措施；提出了 JAM 方法，通过越过输入级别的过滤器和生成密文字符来绕过输出级别的过滤器，攻击适度保护措施。经过对四个 LLMs 的广泛实验表明，JAM 比基准模型实现更高的越狱成功率（约 19.88 倍）和更低的过滤率（约 1/6 倍）。

May, 2024

大型语言模型中越狱攻击的跨语言调查

通过广泛的实证研究，我们对多语言越狱攻击进行了深入探究，提出了一种新的语义保持算法来创建多语言越狱数据集，并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估，并实施了微调缓解方法。我们的发现显示出，我们的缓解策略显著增强了模型的防御能力，将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。

Jan, 2024