攻击之树:自动破解黑盒 LLM
通过使用以 ChatGPT 为目标的简单黑盒方法,本研究有效地生成越过伦理规定的提示,突破了现有方法的复杂性和计算成本的限制,该方法通过 LLM 自身将有害的提示迭代地重写为无害表达式,该研究结果表明,创建有效的越狱提示比以前认为的更简单,并且黑盒越狱攻击构成了更严重的安全威胁。
Jan, 2024
我们提出了 Tastle,一种新颖的黑盒越狱框架,用于自动化红队攻击大型语言模型(LLMs),通过设计恶意内容隐藏和内存重构来破解 LLMs,实验证明了我们的框架在有效性、可扩展性和可转移性方面的优越性,并评估现有的越狱防御方法的有效性以及发展更有效和实用的防御策略的重要性。
Mar, 2024
大型语言模型对人类价值观的符合日益受到关注。我们提出了 Prompt Automatic Iterative Refinement (PAIR) 算法,用于生成黑盒访问的语义越狱,以理解固有弱点并防止未来滥用。PAIR 支持自动生成越狱攻击目标模型的黑盒查询,相对于现有算法,往往只需少于二十次查询即可成功越狱。同时,PAIR 在开源和闭源的 GPT-3.5/4、Vicuna 和 PaLM-2 等 LLM 上取得了有竞争力的越狱成功率和可传递性。
Oct, 2023
本研究提出了形式主义和已知(和可能的)越狱攻击分类,并在开源和商业 LLM(如 GPT 3.5,OPT,BLOOM 和 FLAN-T5-xxl)上进行了现有越狱方法及其有效性的调查;我们进一步提出了一组有限的提示守卫,并讨论了其对已知攻击类型的有效性。
May, 2023
对大型语言模型 (也称为 LLMs) 的滥用进行了研究,发现存在越过社会伦理道德保障的破解攻击,相关研究呈现了不同的破解方法和违规类别,展示了破解提示的攻击效果,以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性,为未来研究提供了启示,并为从业者评估破解攻击提供了基准工具。
Feb, 2024
通过优化包含对抗性提示及其安全响应的数据集,我们提出了一个两阶段的对抗调整框架,用于增强大型语言模型在防御能力方面的广义性,实验证明了我们方法的优越性,并展示了它作为可传输防御机制的潜力。
Jun, 2024
通过修剪大型语言模型(LLM)的参数,可以显著提高其对 Jailbreaking 提示的抵抗力,而且不需要额外的训练,并且在标准基准测试中不会牺牲性能。此外,我们引入了一个由 225 个有害任务组成的精选数据集,并将其插入到 10 个不同的 Jailbreaking 提示中,结果显示修剪有助于 LLM 集中注意力于与提示相关的标记。最后,我们的实验揭示了著名的聊天模型(如 LLaMA-2 Chat,Vicuna 和 Mistral Instruct)对 Jailbreaking 攻击非常容易受到攻击,某些类别的成功率接近 70-100%。这些结果凸显了修剪作为提高 LLM 的安全性、可靠性和其他所期望行为的可推广方法的潜力。
Jan, 2024
我们提出了一种名为 Prompt Adversarial Tuning (PAT) 的方法来训练一个防御控制机制,将其作为用户提示的前缀来实施我们的防御策略,该方法在黑盒和白盒设置中表现有效,在几乎不影响操作效率的情况下,将高级攻击的成功率降低到几乎为 0,同时仍然保持对简单问题的良性回答率为 80%。我们的研究在 LLM 安全领域可能为未来的探索开辟新的视角。
Feb, 2024
展示了最新的安全对齐语言模型 (LLMs) 即使面对简单的适应性越狱攻击也不具有稳健性,并提出了适用于越狱攻击的对抗性提示模板、随机搜索等攻击方法,同时探索了适用于特定情境的不同模型的脆弱性以及特定 API 特征导致的脆弱性,并介绍了在木马检测领域中使用随机搜索的一种算法。
Apr, 2024