大型语言模型是不自觉的说真话者：利用谬误失误进行越狱攻击

Jul, 2024

大型语言模型是不自觉的说真话者：利用谬误失误进行越狱攻击

Large Language Models Are Involuntary Truth-Tellers: Exploiting Fallacy Failure for Jailbreak Attacks

Yue Zhou, Henry Peng Zou, Barbara Di Eugenio, Yang Zhang

TL;DR语言模型在生成虚假和欺骗性推理时存在困难。我们提出了一种越狱攻击方法，通过利用这一缺陷来获取一个具有恶意输出的对齐语言模型。我们的方法在五个安全对齐的大型语言模型上进行了评估，与四种以前的越狱方法进行了比较，展示了竞争性能和更多有害的输出。我们认为这些发现可以扩展到模型安全、自验证和幻觉等领域。

Abstract

We find that language models have difficulties generating fallacious and deceptive reasoning. When asked to generate deceptive outputs, language

language models deceptive reasoning jailbreak attack malicious output model safety

发现论文，激发创造

通过逻辑链注入，在良性叙述中隐藏恶意目标：破解大型语言模型

该论文提出了一种新型越狱攻击方法，既能欺骗语言模型，也能欺骗人类，通过将恶意目标伪装成一系列善意叙述，并将叙述分布到相关无疑的文章中，从而在真实中隐藏谎言，通过注入恶意意图来欺骗。

Apr, 2024

Tastle: 自动越狱攻击中的大型语言模型分散技术

我们提出了 Tastle，一种新颖的黑盒越狱框架，用于自动化红队攻击大型语言模型（LLMs），通过设计恶意内容隐藏和内存重构来破解 LLMs，实验证明了我们的框架在有效性、可扩展性和可转移性方面的优越性，并评估现有的越狱防御方法的有效性以及发展更有效和实用的防御策略的重要性。

Mar, 2024

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

大型语言模型中越狱攻击的跨语言调查

通过广泛的实证研究，我们对多语言越狱攻击进行了深入探究，提出了一种新的语义保持算法来创建多语言越狱数据集，并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估，并实施了微调缓解方法。我们的发现显示出，我们的缓解策略显著增强了模型的防御能力，将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。

Jan, 2024

重新思考以评估语言模型破解

提出了三个指标来评估语言模型的越狱，分别是安全违规、信息性和相对真实性，并展示了这些指标与不同恶意用户的目标之间的相关性，通过预处理响应扩展了自然语言生成评估方法来计算这些指标，对来自三个恶意目的数据集和三个越狱系统产生的基准数据集进行了评估，与现有的越狱评估方法相比，实验证明我们的多方面评估方法在平均 F1 得分上提高了 17%，我们的发现促使我们摆脱越狱问题的二元观点，引入更全面的评估来确保语言模型的安全性。

Apr, 2024

欺骗 LLMs 反抗：理解、分析和预防越狱

本研究提出了形式主义和已知（和可能的）越狱攻击分类，并在开源和商业 LLM（如 GPT 3.5，OPT，BLOOM 和 FLAN-T5-xxl）上进行了现有越狱方法及其有效性的调查；我们进一步提出了一组有限的提示守卫，并讨论了其对已知攻击类型的有效性。

May, 2023

通过伪装和重构在少量查询中解封大型语言模型的方法

通过识别安全微调中的偏差漏洞并设计一种称为 DRA（伪装和重构攻击）的黑盒越狱方法，我们在 LLMs 安全方面开创了理论基础。我们评估了 DRA 在各种开源和闭源模型上的效果，并展示了最先进的越狱成功率和攻击效率，特别是在 LLM 聊天机器人 GPT-4 上，DRA 拥有 90％的攻击成功率。

Feb, 2024

LLM 越狱攻击与防御技术 -- 综合研究

该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进一步研究。

Feb, 2024

安全” 人工智能相应中的信息泄露导致虚假的安全感

大型语言模型存在越狱的漏洞，目前的防御机制不足以确保模型的安全性，我们引入信息理论威胁模型并提出了一种防御机制，以确保模型的安全性，并揭示了安全 - 效用的权衡关系。

Jul, 2024

面向 LLM 的破解攻击的理解：表示空间分析

通过研究大型语言模型中的有害和无害提示在表示空间中的行为，探讨成功越狱攻击的内在特性，并利用隐藏表示引入现有越狱攻击的目标，通过实验证实上述假设。希望该研究能为理解大型语言模型如何理解有害信息提供新的见解。

Jun, 2024