通过潜意识利用和外部反映实现对 LLMs 的快速破解优化

Feb, 2024

通过潜意识利用和外部反映实现对 LLMs 的快速破解优化

Rapid Optimization for Jailbreaking LLMs via Subconscious Exploitation and Echopraxia

Guangyu Shen, Siyuan Cheng, Kaiyuan Zhang, Guanhong Tao, Shengwei An...

TL;DR通过 RIPPLE 方法，我们展示了对大型语言模型进行有效攻击的可能性，它涉及到大型语言模型的安全问题以及心理概念的应用。

Abstract

large language models (LLMs) have become prevalent across diverse sectors, transforming human life with their extraordinary reasoning and comprehension abilities. As they find increased use in sensitive tasks, safety co

large language models safety concerns jailbreaking prompts psychological concepts ripple

发现论文，激发创造

DeepInception：催眠大型语言模型成为破解者

LLMs 容易受到破解攻击，本研究提出了一种 DeepInception 方法来解除 LLMs 在使用控制方面的限制，揭示了它们的关键弱点，需加强安全性的防御。

Nov, 2023

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

欺骗 LLMs 反抗：理解、分析和预防越狱

本研究提出了形式主义和已知（和可能的）越狱攻击分类，并在开源和商业 LLM（如 GPT 3.5，OPT，BLOOM 和 FLAN-T5-xxl）上进行了现有越狱方法及其有效性的调查；我们进一步提出了一组有限的提示守卫，并讨论了其对已知攻击类型的有效性。

May, 2023

亚毒问题：探索 LIM 在越狱尝试中的态度转变

通过设计和分析敏感问题，揭示了一个更有效的在 LLMs 中识别漏洞的方法，旨在推进 LLM 的安全，这不仅挑战了现有的越狱方法学，而且加强了 LLMs 对潜在攻击的防范。

Apr, 2024

通过模糊输入对大型语言模型进行越狱

通过采用 ObscurePrompt 方法，从模糊的文本入手，并利用强大的 LLM 进行迭代转换，增强攻击的稳健性，从而提高对 LLM 的破解效果，并改进先前的方法，以增强 LLM 的对齐性能。

Jun, 2024

使用词替代密码破解专有大型语言模型

大型语言模型容易受到称为 Jailbreak 的创新提示的影响，本文提出使用加密技术对越狱提示进行编码，实验结果表明我们提出的越狱方法在 ChatGPT、GPT-4 和 Gemini-Pro 等先进专有模型上的攻击成功率高达 59.42％，此外，我们还讨论了这些模型的过度防御性。

Feb, 2024

狼穿羊皮：通用嵌套越狱引导轻易蒙骗大型语言模型

基于自动生成的破解提示，我们提出了 ReNeLLM 框架来改进大型语言模型的攻击成功率，同时降低时间成本；我们的研究揭示了当前防御方法在保护大型语言模型方面的不足，并从提示执行优先级的角度进行了详细的分析和讨论。

Nov, 2023

CodeChameleon：为大型语言模型破解定制的加密框架

通过引入个性化加密策略的新型越狱框架 CodeChameleon，本研究研究了对大型语言模型（LLMs）的安全和伦理协议进行绕过的敌对滥用，提出了基于意图安全识别和响应生成的安全机制假设。我们通过将任务转化为代码完成格式，使用户能够使用个性化加密函数对查询进行加密，以避开意图安全识别阶段。为保证响应生成功能，我们在指令中嵌入了一个解密函数，允许 LLM 成功解密和执行加密的查询。在 7 个 LLM 上进行了广泛的实验，取得了最先进的平均攻击成功率（ASR），其中在 GPT-4-1106 上达到了 86.6％的 ASR。

Feb, 2024

潜在破解：用于评估大型语言模型文本安全和输出鲁棒性的基准测试

本研究运用诸如指令调整和来自人类或人工智能反馈的强化学习等技术，提出了一个潜在的越狱 Prompts 数据集，旨在全面研究大型语言模型的文本安全性和输出鲁棒性，结果表明当前的 LLMs 不仅偏爱某些指令动词，而且在显式正常指令中存在不同的越狱率，这意味着在显式正常指令中的指令动词将不同程度地增强模型生成不安全内容的概率。

Jul, 2023

DrAttack: 强大的 LLM 越狱程序的提示分解与重构

该研究论文提出了一种自动提示分解和重构框架（DrAttack），通过将恶意提示分解为子提示，并通过上下文学习和同义词搜索来实现重新组装，从而有效地模糊其恶意意图，以提高大语言模型的入侵成功率。在多个开源和闭源大语言模型上的实证研究表明，DrAttack 能够显著降低查询次数，并在仅使用 15 个查询时，在 GPT-4 上获得了 78.0％的成功率，超过了以前的最佳攻击方法的 33.1％。

Feb, 2024