认知过载：运用超负荷逻辑思维破解大型语言模型

Nov, 2023

认知过载：运用超负荷逻辑思维破解大型语言模型

Cognitive Overload: Jailbreaking Large Language Models with Overloaded Logical Thinking

Nan Xu, Fei Wang, Ben Zhou, Bang Zheng Li, Chaowei Xiao...

TL;DR通过针对大型语言模型的认知结构与过程进行专门设计的破解攻击，本文揭示了多语言认知过载、隐晦表达和因果推理等对大型语言模型的安全漏洞，实验证明这些攻击可以成功破解主要的研究模型，并且现有的防御策略不能有效地抵御这些恶意使用。

Abstract

While large language models (LLMs) have demonstrated increasing power, they have also given rise to a wide range of harmful behaviors. As representatives, jailbreak attacks can provoke harmful or unethical respon

large language models jailbreak attacks cognitive overload veiled expression effect-to-cause reasoning

发现论文，激发创造

大型语言模型中越狱攻击的跨语言调查

通过广泛的实证研究，我们对多语言越狱攻击进行了深入探究，提出了一种新的语义保持算法来创建多语言越狱数据集，并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估，并实施了微调缓解方法。我们的发现显示出，我们的缓解策略显著增强了模型的防御能力，将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。

Jan, 2024

LLM 越狱攻击与防御技术 -- 综合研究

该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进一步研究。

Feb, 2024

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

援足门：通过认知心理学理解大型语言模型破解

大规模语言模型（LLM）的研究揭示了其内在决策逻辑，特别是在面对越狱攻击时的认知一致性理论和自动黑盒越狱方法。

Feb, 2024

Tastle: 自动越狱攻击中的大型语言模型分散技术

我们提出了 Tastle，一种新颖的黑盒越狱框架，用于自动化红队攻击大型语言模型（LLMs），通过设计恶意内容隐藏和内存重构来破解 LLMs，实验证明了我们的框架在有效性、可扩展性和可转移性方面的优越性，并评估现有的越狱防御方法的有效性以及发展更有效和实用的防御策略的重要性。

Mar, 2024

亚毒问题：探索 LIM 在越狱尝试中的态度转变

通过设计和分析敏感问题，揭示了一个更有效的在 LLMs 中识别漏洞的方法，旨在推进 LLM 的安全，这不仅挑战了现有的越狱方法学，而且加强了 LLMs 对潜在攻击的防范。

Apr, 2024

面向 LLM 的破解攻击的理解：表示空间分析

通过研究大型语言模型中的有害和无害提示在表示空间中的行为，探讨成功越狱攻击的内在特性，并利用隐藏表示引入现有越狱攻击的目标，通过实验证实上述假设。希望该研究能为理解大型语言模型如何理解有害信息提供新的见解。

Jun, 2024

大型语言模型是不自觉的说真话者：利用谬误失误进行越狱攻击

语言模型在生成虚假和欺骗性推理时存在困难。我们提出了一种越狱攻击方法，通过利用这一缺陷来获取一个具有恶意输出的对齐语言模型。我们的方法在五个安全对齐的大型语言模型上进行了评估，与四种以前的越狱方法进行了比较，展示了竞争性能和更多有害的输出。我们认为这些发现可以扩展到模型安全、自验证和幻觉等领域。

Jul, 2024

欺骗 LLMs 反抗：理解、分析和预防越狱

本研究提出了形式主义和已知（和可能的）越狱攻击分类，并在开源和商业 LLM（如 GPT 3.5，OPT，BLOOM 和 FLAN-T5-xxl）上进行了现有越狱方法及其有效性的调查；我们进一步提出了一组有限的提示守卫，并讨论了其对已知攻击类型的有效性。

May, 2023

通过逻辑链注入，在良性叙述中隐藏恶意目标：破解大型语言模型

该论文提出了一种新型越狱攻击方法，既能欺骗语言模型，也能欺骗人类，通过将恶意目标伪装成一系列善意叙述，并将叙述分布到相关无疑的文章中，从而在真实中隐藏谎言，通过注入恶意意图来欺骗。

Apr, 2024