SequentialBreak：大型语言模型如何被嵌入监狱的提示欺骗

Nov, 2024

SequentialBreak：大型语言模型如何被嵌入监狱的提示欺骗

SequentialBreak: Large Language Models Can be Fooled by Embedding Jailbreak Prompts into Sequential Prompt Chains

Bijoy Ahmed Saiem, MD Sadik Hossain Shanto, Rakib Ahsan, Md Rafi ur Rashid

TL;DR本研究解决了大型语言模型在应用中面临的安全漏洞问题，提出了SequentialBreak这一新型监狱攻击方法，该方法通过在单一查询中嵌入恶意提示来操控模型的输出。实验结果表明，SequentialBreak相比现有方法在公开和闭源模型上显著提高了攻击成功率，强调了对大型语言模型加强安全防护的迫切需求。

Abstract

As the integration of the Large Language Models (LLMs) into various applications increases, so does their susceptibility to misuse, raising significant security concerns. Numerous jailbreak attacks have been proposed to assess the security defense of LLMs. Current jailbreak attacks mai

发现论文，激发创造

通过提示工程实现ChatGPT越狱：一项实证研究

本研究研究了Large Language Models（LLMs）中存在的内容限制和潜在误用的挑战，并调查了与破解LLMs相关的三个关键问题：不同提示类型的数量、提示对抗LLMs限制的有效性以及ChatGPT对这些提示的鲁棒性。该研究根据分类模型分析现有提示的分布，识别了10种不同模式和三种破解提示类别。此外，研究利用8120个问题的数据集，评估了ChatGPT版本3.5和4.0中破解提示的能力，最终发现提示可以在40个用例场景中始终逃脱限制。该研究强调了提示结构在破解LLMs中的重要性，并讨论了生成和防止鲁棒破解提示的挑战。

May, 2023

现在做任何事情”：对大型语言模型中的自由研究提示进行特征化和评估

通过对wild中的jailbreak prompts进行第一次测量研究，我们发现了jailbreak prompts的独特特征以及其攻击策略，并评估了当前LLMs和保护措施在各种情况下不能充分防御jailbreak prompts的潜在危害，这为研究界和LLM供应商在推动更安全和监管的LLMs方面提供了指导。

Aug, 2023

狼穿羊皮：通用嵌套越狱引导轻易蒙骗大型语言模型

基于自动生成的破解提示，我们提出了ReNeLLM框架来改进大型语言模型的攻击成功率，同时降低时间成本；我们的研究揭示了当前防御方法在保护大型语言模型方面的不足，并从提示执行优先级的角度进行了详细的分析和讨论。

Nov, 2023

大型语言模型中越狱攻击的跨语言调查

通过广泛的实证研究，我们对多语言越狱攻击进行了深入探究，提出了一种新的语义保持算法来创建多语言越狱数据集，并对包括GPT-4和LLaMa在内的开源和商业语言模型进行了详尽评估，并实施了微调缓解方法。我们的发现显示出，我们的缓解策略显著增强了模型的防御能力，将攻击成功率降低了96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。

Jan, 2024

对LLM的越狱攻击进行全面评估

对大型语言模型(也称为LLMs)的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

结构伪装: 利用非常见文本编码结构对大型语言模型进行自动越狱攻击

该论文研究大型语言模型（LLMs）的结构对jailbreak攻击的贡献，并提出一种基于不常用文本编码结构的新型结构级攻击方法（UTES），通过构建名为StructuralSleight的自动化jailbreak工具，攻击成功率达到94.62％，并超过了现有技术的水平。

Jun, 2024

被污染的LangChain: LangChain破解LLMs

通过LangChain实现Retrieval-Augmented Generation，我们提出了间接破解和一种新的间接破解攻击方法——Poisoned-LangChain (PLC)，该方法使用毒化的外部知识库与大型语言模型进行交互，从而导致大型模型生成恶意的非合规对话。在六个不同的大型语言模型上进行的实验表明，PLC成功地实施了三种不同场景下的间接破解攻击，分别达到了88.56％，79.04％和82.69％的成功率。

Jun, 2024

大型语言模型的越狱攻击与防御：综述

通过提出全面详细的破防攻击和防御方法分类体系，本研究旨在启发未来的研究和实际应用，增强对大语言模型在对抗性攻击中的安全性保障，为发展更安全的大语言模型奠定基础。

Jul, 2024

大型语言模型的多轮越狱攻击

本研究旨在解决大型语言模型在应对越狱攻击时的安全隐患。这项研究提出了一种多轮越狱方法，通过将危险提示重新分解为一系列较少有害的子问题，成功绕过模型的安全检查。实验结果显示，该方法在处理越狱攻击时的成功率高达94%。

Oct, 2024

通过良性数据镜像的隐蔽性越狱攻击大型语言模型

本研究解决了大型语言模型安全性研究中越狱攻击方法的不足。我们提出了一种改进的迁移攻击方法，通过良性数据蒸馏局部训练目标黑箱模型的镜像，实现恶意提示构建，从而提高了隐蔽性。研究发现，该方法在针对GPT-3.5 Turbo的攻击成功率最高可达92%，强调了需要更强大的防御机制。

Oct, 2024