对抗调整:为LLMs防御越狱攻击
基于自动生成的破解提示,我们提出了ReNeLLM框架来改进大型语言模型的攻击成功率,同时降低时间成本;我们的研究揭示了当前防御方法在保护大型语言模型方面的不足,并从提示执行优先级的角度进行了详细的分析和讨论。
Nov, 2023
我们提出了一种名为Prompt Adversarial Tuning (PAT)的方法来训练一个防御控制机制,将其作为用户提示的前缀来实施我们的防御策略,该方法在黑盒和白盒设置中表现有效,在几乎不影响操作效率的情况下,将高级攻击的成功率降低到几乎为0,同时仍然保持对简单问题的良性回答率为80%。我们的研究在LLM安全领域可能为未来的探索开辟新的视角。
Feb, 2024
通过使用AdvPrompter方法,本文提出了一种用于生成人类可读的敌对提示的新方法,生成的提示可以在几秒钟内完成,比现有的基于优化的方法快800倍,该方法使得大型语言模型(LLMs)更加抵抗破解攻击而实现高性能。
Apr, 2024
通过Layer-specific Editing (LED)方法,本研究探讨了大型语言模型(LLMs)对有害提示的反应,并显示出早期层中存在几个关键的安全层。通过将这些安全层与来自选择目标层的解码安全响应进行重新对齐,可以显著提高LLMs对破解攻击的适应性。
May, 2024
通过借鉴转移式攻击的思想,结合渐变式对抗性提示生成过程,我们改进了自动生成的对抗性示例以攻击白盒大语言模型,取得了显著的性能提升,同时也提出了新的见解和适当的方法组合。
May, 2024
通过提出全面详细的破防攻击和防御方法分类体系,本研究旨在启发未来的研究和实际应用,增强对大语言模型在对抗性攻击中的安全性保障,为发展更安全的大语言模型奠定基础。
Jul, 2024
本研究针对现有的对抗性提示生成方法在越狱攻击中的局限性,提出了一种全新的方法将杂乱的对抗性提示转化为连贯的人类可读的文本。此方法有效揭示并转移模型的脆弱性,提高了对安全对齐的大型语言模型的越狱攻击成功率,为越狱攻击的设计提供了新的思路。
Oct, 2024
本文解决了大型语言模型(LLMs)在提示注入和越狱攻击方面的显著脆弱性。通过对攻击方法和防御机制进行综合分析,提出了未来在抵御不断演变攻击和伦理影响等方面的研究方向。研究表明,增强LLM的安全性和保证其安全部署至关重要。
Oct, 2024
本研究解决了大型语言模型在面对自动越狱攻击时的脆弱性,尤其是在生成对齐良好的模型的攻击成功率低的问题。通过引入ADV-LLM,一个迭代自我调优的框架,该方法显著降低了生成对抗后缀的计算成本,并在各种开源LLM上实现了近100%的攻击成功率,展示了其在安全对齐研究中的重要价值。
Oct, 2024
本研究解决了当前大语言模型(LLMs)在面对自动化越狱攻击时的脆弱性及低攻击成功率的问题。提出的ADV-LLM框架通过迭代自调整过程,显著降低了生成对抗后缀的计算成本,同时在多个开源LLMs上实现了近100%的攻击成功率,展现出对封闭源模型的强攻击可转移性,具有重大的安全研究潜力。
Oct, 2024