抑制拒绝:通过破解抑制性拒绝来破解 LLM
通过识别安全微调中的偏差漏洞并设计一种称为 DRA(伪装和重构攻击)的黑盒越狱方法,我们在 LLMs 安全方面开创了理论基础。我们评估了 DRA 在各种开源和闭源模型上的效果,并展示了最先进的越狱成功率和攻击效率,特别是在 LLM 聊天机器人 GPT-4 上,DRA 拥有 90%的攻击成功率。
Feb, 2024
对大型语言模型 (也称为 LLMs) 的滥用进行了研究,发现存在越过社会伦理道德保障的破解攻击,相关研究呈现了不同的破解方法和违规类别,展示了破解提示的攻击效果,以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性,为未来研究提供了启示,并为从业者评估破解攻击提供了基准工具。
Feb, 2024
利用表示工程的思想,我们提出了一种无需精心构建提示,不受模型微调影响,并可以广泛应用于任何开源 LLMs 的越狱方法,通过在多个主流 LLMs 上进行评估,实验结果证明了我们方法的显著有效性,并对此方法背后的技术进行了广泛深入的研究。
Jan, 2024
本研究提出了形式主义和已知(和可能的)越狱攻击分类,并在开源和商业 LLM(如 GPT 3.5,OPT,BLOOM 和 FLAN-T5-xxl)上进行了现有越狱方法及其有效性的调查;我们进一步提出了一组有限的提示守卫,并讨论了其对已知攻击类型的有效性。
May, 2023
基于自动生成的破解提示,我们提出了 ReNeLLM 框架来改进大型语言模型的攻击成功率,同时降低时间成本;我们的研究揭示了当前防御方法在保护大型语言模型方面的不足,并从提示执行优先级的角度进行了详细的分析和讨论。
Nov, 2023
Jailbreaking is an emerging adversarial attack that bypasses the safety alignment deployed in off-the-shelf large language models. This paper proposes a lightweight yet practical defense called SELFDEFEND, which can defend against all existing jailbreak attacks with minimal delay for jailbreak prompts and negligible delay for normal user prompts.
Feb, 2024
通过设计和分析敏感问题,揭示了一个更有效的在 LLMs 中识别漏洞的方法,旨在推进 LLM 的安全,这不仅挑战了现有的越狱方法学,而且加强了 LLMs 对潜在攻击的防范。
Apr, 2024
该研究对破解大型语言模型(LLMs)及其防御技术进行了全面分析,评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果,并释放了数据集和测试框架,以促进 LLM 安全领域的进一步研究。
Feb, 2024
通过对 wild 中的 jailbreak prompts 进行第一次测量研究,我们发现了 jailbreak prompts 的独特特征以及其攻击策略,并评估了当前 LLMs 和保护措施在各种情况下不能充分防御 jailbreak prompts 的潜在危害,这为研究界和 LLM 供应商在推动更安全和监管的 LLMs 方面提供了指导。
Aug, 2023