打开 LLMs 的潘多拉魔盒：通过表示工程越狱 LLMs

Jan, 2024

打开 LLMs 的潘多拉魔盒：通过表示工程越狱 LLMs

Open the Pandora's Box of LLMs: Jailbreaking LLMs through Representation Engineering

Tianlong Li, Xiaoqing Zheng, Xuanjing Huang

TL;DR利用表示工程的思想，我们提出了一种无需精心构建提示，不受模型微调影响，并可以广泛应用于任何开源 LLMs 的越狱方法，通过在多个主流 LLMs 上进行评估，实验结果证明了我们方法的显著有效性，并对此方法背后的技术进行了广泛深入的研究。

Abstract

Getting large language models (LLMs) to refuse to answer hostile toxicity questions is a core issue under the theme of LLMs security. Previous approaches have used prompts engineering to jailbreak LLMs and answer

large language models toxicity questions prompts engineering model jailbreaking representation engineering

发现论文，激发创造

欺骗 LLMs 反抗：理解、分析和预防越狱

本研究提出了形式主义和已知（和可能的）越狱攻击分类，并在开源和商业 LLM（如 GPT 3.5，OPT，BLOOM 和 FLAN-T5-xxl）上进行了现有越狱方法及其有效性的调查；我们进一步提出了一组有限的提示守卫，并讨论了其对已知攻击类型的有效性。

May, 2023

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

亚毒问题：探索 LIM 在越狱尝试中的态度转变

通过设计和分析敏感问题，揭示了一个更有效的在 LLMs 中识别漏洞的方法，旨在推进 LLM 的安全，这不仅挑战了现有的越狱方法学，而且加强了 LLMs 对潜在攻击的防范。

Apr, 2024

通过伪装和重构在少量查询中解封大型语言模型的方法

通过识别安全微调中的偏差漏洞并设计一种称为 DRA（伪装和重构攻击）的黑盒越狱方法，我们在 LLMs 安全方面开创了理论基础。我们评估了 DRA 在各种开源和闭源模型上的效果，并展示了最先进的越狱成功率和攻击效率，特别是在 LLM 聊天机器人 GPT-4 上，DRA 拥有 90％的攻击成功率。

Feb, 2024

面向 LLM 的破解攻击的理解：表示空间分析

通过研究大型语言模型中的有害和无害提示在表示空间中的行为，探讨成功越狱攻击的内在特性，并利用隐藏表示引入现有越狱攻击的目标，通过实验证实上述假设。希望该研究能为理解大型语言模型如何理解有害信息提供新的见解。

Jun, 2024

迫使他们坦白！从（生产）LLM 中进行强制知识提取

大型语言模型的伦理标准与人类价值的对齐可以通过模型输出日志的滥用来被破坏，我们提出的模型审问方法能够揭示隐藏在输出日志中的有害回复，有效性达到 92％，速度快 10 到 20 倍，对编码任务也适用。

Dec, 2023

针对多模式大型语言模型的越狱攻击

该研究聚焦于多模态大型语言模型（MLLMs）的越狱攻击，旨在引导 MLLMs 生成令人反感的响应来对抗危险用户查询。提出了一种基于最大似然的算法，可以寻找 “图像越狱提示”（imgJP），在多个未知提示和图像上实现对 MLLMs 的越狱。我们的方法具有很强的模型可迁移性，生成的 imgJP 可被转移到各种模型中，包括 MiniGPT-v2、LLaVA、InstructBLIP 和 mPLUG-Owl2 等，以黑盒方式进行越狱。此外，我们揭示了 MLLM 越狱和 LLM 越狱之间的联系。因此，我们引入了一种基于构造的方法，将我们的方法应用于 LLM 越狱，比当前最先进的方法更高效。代码可在此处找到。警告：一些由语言模型生成的内容可能对某些读者具有冒犯性。

Feb, 2024

LLM 越狱攻击与防御技术 -- 综合研究

该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进一步研究。

Feb, 2024

基于逻辑回归的令牌级操作的破解方法：Lockpicking LLMs

大型语言模型（LLMs）已经改变了自然语言处理领域，但它们仍然容易受到越狱攻击的影响，这种攻击利用了它们生成意外和潜在有害内容的能力。我们通过介绍 JailMine，一种有效应对这些限制的创新的基于令牌水平操作的方法，通过自动化的 “挖掘” 过程从 LLMs 中引发恶意响应，从而解决了现有基于令牌水平的越狱技术所面临的可扩展性和效率挑战。通过在多个知名 LLMs 和数据集上进行严格测试，我们证明了 JailMine 的有效性和效率，在保持高成功率（平均 95%）的同时，平均时间消耗大幅减少了 86％，即使面对不断进化的防御策略。我们的工作为评估和减轻 LLMs 对越狱攻击的脆弱性作出了贡献，强调了继续保持警惕和采取积极措施以增强这些强大语言模型的安全性和可靠性的重要性。

May, 2024

使用词替代密码破解专有大型语言模型

大型语言模型容易受到称为 Jailbreak 的创新提示的影响，本文提出使用加密技术对越狱提示进行编码，实验结果表明我们提出的越狱方法在 ChatGPT、GPT-4 和 Gemini-Pro 等先进专有模型上的攻击成功率高达 59.42％，此外，我们还讨论了这些模型的过度防御性。

Feb, 2024