通用黑盒破解大型语言模型

Sep, 2023

Open Sesame! Universal Black Box Jailbreaking of Large Language Models

Raz Lapid, Ron Langberg, Moshe Sipper

TL;DR介绍了一种使用遗传算法来操纵无法访问模型结构和参数的大型语言模型的新方法，通过优化通用对抗提示，发现模型的限制和漏洞，从而破坏模型的对齐性，提供诊断工具以评估和增强大型语言模型与人类意图的一致性。

Abstract

large language models (LLMs), designed to provide helpful and safe responses, often rely on alignment techniques to align with user intent and social guidelines. Unfortunately, this alignment can be exploited by

large language models alignment techniques genetic algorithm model manipulation responsible ai development

发现论文，激发创造

通过利用生成技术实现对开源 LLMs 的灾难性越狱

通过改变文本生成策略，我们提出一种新的攻击方法（生成利用攻击），成功地使 11 种语言模型的对齐率从 0% 提高到超过 95%；我们还提出了一种有效的对齐方法，可在攻击下合理降低对齐失误率。这项研究强烈呼吁在发布开源大型语言模型之前进行更全面的红队测试和更好的对齐方式。

Oct, 2023

二十次查询中破解黑盒大型语言模型

大型语言模型对人类价值观的符合日益受到关注。我们提出了 Prompt Automatic Iterative Refinement (PAIR) 算法，用于生成黑盒访问的语义越狱，以理解固有弱点并防止未来滥用。PAIR 支持自动生成越狱攻击目标模型的黑盒查询，相对于现有算法，往往只需少于二十次查询即可成功越狱。同时，PAIR 在开源和闭源的 GPT-3.5/4、Vicuna 和 PaLM-2 等 LLM 上取得了有竞争力的越狱成功率和可传递性。

Oct, 2023

如何请求决定一切：针对越狱攻击的简单黑盒方法

通过使用以 ChatGPT 为目标的简单黑盒方法，本研究有效地生成越过伦理规定的提示，突破了现有方法的复杂性和计算成本的限制，该方法通过 LLM 自身将有害的提示迭代地重写为无害表达式，该研究结果表明，创建有效的越狱提示比以前认为的更简单，并且黑盒越狱攻击构成了更严重的安全威胁。

Jan, 2024

面向对齐语言模型的通用和可迁移对抗攻击

通过贪婪和基于梯度的搜索技术，自动产生敌对性后缀，实现对齐语言模型的攻击；我们发现这种攻击是可转移的，可以应用于各种公开发布的对齐语言模型，从而引发对如何防止生成不良信息的重要问题。

Jul, 2023

比赛报告：在对齐的 LLMs 中发现通用越狱后门

大型语言模型的安全对齐问题是一个未来研究的重要领域，此处报告总结了关键发现和对未来研究的有前景的想法。

Apr, 2024

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

通过伪装和重构在少量查询中解封大型语言模型的方法

通过识别安全微调中的偏差漏洞并设计一种称为 DRA（伪装和重构攻击）的黑盒越狱方法，我们在 LLMs 安全方面开创了理论基础。我们评估了 DRA 在各种开源和闭源模型上的效果，并展示了最先进的越狱成功率和攻击效率，特别是在 LLM 聊天机器人 GPT-4 上，DRA 拥有 90％的攻击成功率。

Feb, 2024

大型语言模型中越狱攻击的跨语言调查

通过广泛的实证研究，我们对多语言越狱攻击进行了深入探究，提出了一种新的语义保持算法来创建多语言越狱数据集，并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估，并实施了微调缓解方法。我们的发现显示出，我们的缓解策略显著增强了模型的防御能力，将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。

Jan, 2024

AutoDAN：生成对齐的大型语言模型上隐蔽越狱提示

通过精心设计的分层遗传算法，AutoDAN 能够自动生成隐秘的越狱提示，不仅自动化了过程同时保持语义的意义，并且在跨模型转移性和交叉样本普适性方面表现出优越的攻击力，比基线方法更好。此外，我们还将 AutoDAN 与基于困惑度的防御方法进行比较，并展示了 AutoDAN 能够有效地绕过它们。

Oct, 2023

Tastle: 自动越狱攻击中的大型语言模型分散技术

我们提出了 Tastle，一种新颖的黑盒越狱框架，用于自动化红队攻击大型语言模型（LLMs），通过设计恶意内容隐藏和内存重构来破解 LLMs，实验证明了我们的框架在有效性、可扩展性和可转移性方面的优越性，并评估现有的越狱防御方法的有效性以及发展更有效和实用的防御策略的重要性。

Mar, 2024