前缀引导：大型语言模型抵御越狱攻击的方向盘

Aug, 2024

前缀引导：大型语言模型抵御越狱攻击的方向盘

Prefix Guidance: A Steering Wheel for Large Language Models to Defend Against Jailbreak Attacks

Jiawei Zhao, Kejiang Chen, Xiaojian Yuan, Weiming Zhang

TL;DR本研究解决了大型语言模型（LLMs）在越狱攻击中存在的安全漏洞。提出了一种名为前缀引导（PG）的防御框架，通过直接设置模型输出的前几个令牌，帮助模型识别有害提示。研究表明，PG在保护模型效能的同时，相比于其他防御方法，展现出更高的有效性和优越性。

Abstract

In recent years, the rapid development of Large Language Models (LLMs) has achieved remarkable performance across various tasks. However, research indicates that LLMs are vulnerable to Jailbreak Attacks, where ad

发现论文，激发创造

狼穿羊皮：通用嵌套越狱引导轻易蒙骗大型语言模型

基于自动生成的破解提示，我们提出了ReNeLLM框架来改进大型语言模型的攻击成功率，同时降低时间成本；我们的研究揭示了当前防御方法在保护大型语言模型方面的不足，并从提示执行优先级的角度进行了详细的分析和讨论。

Nov, 2023

通过目标优先级保护大型语言模型抵御越狱攻击

通过将目标优先级整合到训练和推理阶段，我们提出了一种对抗越狱攻击的方法，显著降低了越狱攻击的成功率，并减少了大型语言模型的潜在安全风险。

Nov, 2023

大型语言模型中越狱攻击的跨语言调查

通过广泛的实证研究，我们对多语言越狱攻击进行了深入探究，提出了一种新的语义保持算法来创建多语言越狱数据集，并对包括GPT-4和LLaMa在内的开源和商业语言模型进行了详尽评估，并实施了微调缓解方法。我们的发现显示出，我们的缓解策略显著增强了模型的防御能力，将攻击成功率降低了96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。

Jan, 2024

重新思考以评估语言模型破解

提出了三个指标来评估语言模型的越狱，分别是安全违规、信息性和相对真实性，并展示了这些指标与不同恶意用户的目标之间的相关性，通过预处理响应扩展了自然语言生成评估方法来计算这些指标，对来自三个恶意目的数据集和三个越狱系统产生的基准数据集进行了评估，与现有的越狱评估方法相比，实验证明我们的多方面评估方法在平均F1得分上提高了17%，我们的发现促使我们摆脱越狱问题的二元观点，引入更全面的评估来确保语言模型的安全性。

Apr, 2024

JailbreakLens：针对大型语言模型的越狱攻击的可视化分析

通过与领域专家合作，我们提出了一个辅助框架来简化对繁琐的破解分析过程，并设计了一个视觉分析系统，帮助用户评估模型安全性并识别模型弱点。

Apr, 2024

通过特定层编辑来防御针对大型语言模型的越狱攻击

通过Layer-specific Editing (LED)方法，本研究探讨了大型语言模型（LLMs）对有害提示的反应，并显示出早期层中存在几个关键的安全层。通过将这些安全层与来自选择目标层的解码安全响应进行重新对齐，可以显著提高LLMs对破解攻击的适应性。

May, 2024

通过密码字符对大型语言模型进行越狱以对抗审核管控

引入JAMBench作为一个有害行为基准测试，通过160个手工制作的指令来触发和评估适度保护措施；提出了JAM方法，通过越过输入级别的过滤器和生成密文字符来绕过输出级别的过滤器，攻击适度保护措施。经过对四个LLMs的广泛实验表明，JAM比基准模型实现更高的越狱成功率（约19.88倍）和更低的过滤率（约1/6倍）。

May, 2024

通过Silent Tokens增强对大型语言模型的越狱攻击

该研究探讨了L语言模型的安全威胁，引入了简单的BOOST攻击方法，通过在有害问题末尾添加eos标记，绕过LLM的安全对齐，从而导致成功的越狱攻击。研究发现，在MLE对有害问题理解上没有影响的情况下，eos标记可以增加攻击成功率，揭示了LLM对越狱攻击的脆弱性，鼓励开发强大的安全对齐方法。

May, 2024

大型语言模型的越狱攻击与防御：综述

通过提出全面详细的破防攻击和防御方法分类体系，本研究旨在启发未来的研究和实际应用，增强对大语言模型在对抗性攻击中的安全性保障，为发展更安全的大语言模型奠定基础。

Jul, 2024

前缀引导：大型语言模型抵御越狱攻击的方向盘

本研究针对大型语言模型（LLMs）面临的越狱攻击问题，提出了一种名为前缀引导（PG）的防御框架，该框架易于部署，能够通过设定模型输出的前几个词来指导模型识别有害提示。实验结果显示，PG在不同模型和攻击方法上的效果优于现有基线，且能够有效保持模型的性能。

Aug, 2024