通过 Silent Tokens 增强对大型语言模型的越狱攻击

May, 2024

通过 Silent Tokens 增强对大型语言模型的越狱攻击

Enhancing Jailbreak Attack Against Large Language Models through Silent Tokens

Jiahao Yu, Haozheng Luo, Jerry Yao-Chieh, Wenbo Guo, Han Liu...

TL;DR该研究探讨了 L 语言模型的安全威胁，引入了简单的 BOOST 攻击方法，通过在有害问题末尾添加 eos 标记，绕过 LLM 的安全对齐，从而导致成功的越狱攻击。研究发现，在 MLE 对有害问题理解上没有影响的情况下，eos 标记可以增加攻击成功率，揭示了 LLM 对越狱攻击的脆弱性，鼓励开发强大的安全对齐方法。

Abstract

Along with the remarkable successes of language language models, recent research also started to explore the security threats of LLMs, including

language language models security threats jailbreaking attacks boost eos tokens

发现论文，激发创造

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

大型语言模型中越狱攻击的跨语言调查

通过广泛的实证研究，我们对多语言越狱攻击进行了深入探究，提出了一种新的语义保持算法来创建多语言越狱数据集，并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估，并实施了微调缓解方法。我们的发现显示出，我们的缓解策略显著增强了模型的防御能力，将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。

Jan, 2024

亚毒问题：探索 LIM 在越狱尝试中的态度转变

通过设计和分析敏感问题，揭示了一个更有效的在 LLMs 中识别漏洞的方法，旨在推进 LLM 的安全，这不仅挑战了现有的越狱方法学，而且加强了 LLMs 对潜在攻击的防范。

Apr, 2024

LLM 越狱攻击与防御技术 -- 综合研究

该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进一步研究。

Feb, 2024

通过模糊输入对大型语言模型进行越狱

通过采用 ObscurePrompt 方法，从模糊的文本入手，并利用强大的 LLM 进行迭代转换，增强攻击的稳健性，从而提高对 LLM 的破解效果，并改进先前的方法，以增强 LLM 的对齐性能。

Jun, 2024

欺骗 LLMs 反抗：理解、分析和预防越狱

本研究提出了形式主义和已知（和可能的）越狱攻击分类，并在开源和商业 LLM（如 GPT 3.5，OPT，BLOOM 和 FLAN-T5-xxl）上进行了现有越狱方法及其有效性的调查；我们进一步提出了一组有限的提示守卫，并讨论了其对已知攻击类型的有效性。

May, 2023

面向 LLM 的破解攻击的理解：表示空间分析

通过研究大型语言模型中的有害和无害提示在表示空间中的行为，探讨成功越狱攻击的内在特性，并利用隐藏表示引入现有越狱攻击的目标，通过实验证实上述假设。希望该研究能为理解大型语言模型如何理解有害信息提供新的见解。

Jun, 2024

JailbreakLens：针对大型语言模型的越狱攻击的可视化分析

通过与领域专家合作，我们提出了一个辅助框架来简化对繁琐的破解分析过程，并设计了一个视觉分析系统，帮助用户评估模型安全性并识别模型弱点。

Apr, 2024

通过简单自适应攻击解禁领先的安全对齐 LLMs

展示了最新的安全对齐语言模型 (LLMs) 即使面对简单的适应性越狱攻击也不具有稳健性，并提出了适用于越狱攻击的对抗性提示模板、随机搜索等攻击方法，同时探索了适用于特定情境的不同模型的脆弱性以及特定 API 特征导致的脆弱性，并介绍了在木马检测领域中使用随机搜索的一种算法。

Apr, 2024

通过伪装和重构在少量查询中解封大型语言模型的方法

通过识别安全微调中的偏差漏洞并设计一种称为 DRA（伪装和重构攻击）的黑盒越狱方法，我们在 LLMs 安全方面开创了理论基础。我们评估了 DRA 在各种开源和闭源模型上的效果，并展示了最先进的越狱成功率和攻击效率，特别是在 LLM 聊天机器人 GPT-4 上，DRA 拥有 90％的攻击成功率。

Feb, 2024