通过语义平滑对抗越狱攻击的大型语言模型防御

Feb, 2024

通过语义平滑对抗越狱攻击的大型语言模型防御

Defending Large Language Models against Jailbreak Attacks via Semantic Smoothing

Jiabao Ji, Bairu Hou, Alexander Robey, George J. Pappas, Hamed Hassani...

TL;DR防止大语言模型遭受越狱攻击的 SEMANTICSMOOTH 防御机制，在语义攻击方面取得了最先进的鲁棒性成果，并在指导遵循基准测试中保持强大的名义性能。

Abstract

Aligned large language models (LLMs) are vulnerable to jailbreaking attacks, which bypass the safeguards of targeted LLMs and fool them into generating objectionable content. While initial defenses show promise a

large language models jailbreaking attacks semantic attacks semanticsmooth robustness

发现论文，激发创造

SmoothLLM: 对抗越狱攻击的大型语言模型防御

为了解决大型语言模型在破解攻击中的脆弱性，提出了 SmoothLLM 算法，通过对输入的随机扰动和聚合进行检测，降低了攻击成功率，并在攻击缓解上提供了可证明的保证。

Oct, 2023

自我欺骗：大型语言模型语义防火墙的逆渗透

通过研究语言模型监管的方法和攻击，本文提出一种自动破解监管的方法，即引入语意防火墙概念并提供三种技术实现方式，从而成功地实施了 “自欺” 攻击。实验证明该方法的有效性，为未来研究提供了启示。

Aug, 2023

通过自去噪平滑提高大型语言模型的稳健性

大型语言模型 (LLMs) 的漏洞性导致对抗性扰动攻击，而随着模型规模的增加和有限的访问权限，提高模型的鲁棒性变得很困难。我们提出了一种称为自修复平滑的方法，通过利用 LLMs 的多任务性质，首先去噪噪声输入，然后基于这些去噪版本进行预测，以提高模型对噪声数据的鲁棒性。实验结果表明，我们的方法在防御对抗攻击方面超过了现有方法，在下游任务和用户对齐方面都具有较好的鲁棒性。

Apr, 2024

合并提升自我审查对抗越狱攻击

通过融合批评模型和自我批评能力，将大型语言模型（LLM）微调于经过净化的合成数据之上，以提高其对抗性提示的自我批评能力和鲁棒性，从而显著降低攻击者的攻击成功率，为抵御越狱攻击提供了一种有前景的防御机制。

Jun, 2024

大型语言模型中越狱攻击的跨语言调查

通过广泛的实证研究，我们对多语言越狱攻击进行了深入探究，提出了一种新的语义保持算法来创建多语言越狱数据集，并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估，并实施了微调缓解方法。我们的发现显示出，我们的缓解策略显著增强了模型的防御能力，将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。

Jan, 2024

LLM 越狱攻击与防御技术 -- 综合研究

该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进一步研究。

Feb, 2024

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

SpeechGuard: 多模态大型语言模型的对抗鲁棒性探索

通过设计算法进行白盒和黑盒攻击以实现越狱，提出了对抗越狱攻击的对策，并展示了该对策显著降低攻击成功率。

May, 2024

通过特定层编辑来防御针对大型语言模型的越狱攻击

通过 Layer-specific Editing (LED) 方法，本研究探讨了大型语言模型（LLMs）对有害提示的反应，并显示出早期层中存在几个关键的安全层。通过将这些安全层与来自选择目标层的解码安全响应进行重新对齐，可以显著提高 LLMs 对破解攻击的适应性。

May, 2024

对抗调整：为 LLMs 防御越狱攻击

通过优化包含对抗性提示及其安全响应的数据集，我们提出了一个两阶段的对抗调整框架，用于增强大型语言模型在防御能力方面的广义性，实验证明了我们方法的优越性，并展示了它作为可传输防御机制的潜力。

Jun, 2024