通过改变文本生成策略,我们提出一种新的攻击方法(生成利用攻击),成功地使 11 种语言模型的对齐率从 0% 提高到超过 95%;我们还提出了一种有效的对齐方法,可在攻击下合理降低对齐失误率。这项研究强烈呼吁在发布开源大型语言模型之前进行更全面的红队测试和更好的对齐方式。
Oct, 2023
大型语言模型对人类价值观的符合日益受到关注。我们提出了 Prompt Automatic Iterative Refinement (PAIR) 算法,用于生成黑盒访问的语义越狱,以理解固有弱点并防止未来滥用。PAIR 支持自动生成越狱攻击目标模型的黑盒查询,相对于现有算法,往往只需少于二十次查询即可成功越狱。同时,PAIR 在开源和闭源的 GPT-3.5/4、Vicuna 和 PaLM-2 等 LLM 上取得了有竞争力的越狱成功率和可传递性。
通过使用以 ChatGPT 为目标的简单黑盒方法,本研究有效地生成越过伦理规定的提示,突破了现有方法的复杂性和计算成本的限制,该方法通过 LLM 自身将有害的提示迭代地重写为无害表达式,该研究结果表明,创建有效的越狱提示比以前认为的更简单,并且黑盒越狱攻击构成了更严重的安全威胁。
Jan, 2024
通过贪婪和基于梯度的搜索技术,自动产生敌对性后缀,实现对齐语言模型的攻击;我们发现这种攻击是可转移的,可以应用于各种公开发布的对齐语言模型,从而引发对如何防止生成不良信息的重要问题。
Jul, 2023
大型语言模型的安全对齐问题是一个未来研究的重要领域,此处报告总结了关键发现和对未来研究的有前景的想法。
Apr, 2024
对大型语言模型 (也称为 LLMs) 的滥用进行了研究,发现存在越过社会伦理道德保障的破解攻击,相关研究呈现了不同的破解方法和违规类别,展示了破解提示的攻击效果,以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性,为未来研究提供了启示,并为从业者评估破解攻击提供了基准工具。
Feb, 2024
通过识别安全微调中的偏差漏洞并设计一种称为 DRA(伪装和重构攻击)的黑盒越狱方法,我们在 LLMs 安全方面开创了理论基础。我们评估了 DRA 在各种开源和闭源模型上的效果,并展示了最先进的越狱成功率和攻击效率,特别是在 LLM 聊天机器人 GPT-4 上,DRA 拥有 90%的攻击成功率。
通过广泛的实证研究,我们对多语言越狱攻击进行了深入探究,提出了一种新的语义保持算法来创建多语言越狱数据集,并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估,并实施了微调缓解方法。我们的发现显示出,我们的缓解策略显著增强了模型的防御能力,将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。
通过精心设计的分层遗传算法,AutoDAN 能够自动生成隐秘的越狱提示,不仅自动化了过程同时保持语义的意义,并且在跨模型转移性和交叉样本普适性方面表现出优越的攻击力,比基线方法更好。此外,我们还将 AutoDAN 与基于困惑度的防御方法进行比较,并展示了 AutoDAN 能够有效地绕过它们。
我们提出了 Tastle,一种新颖的黑盒越狱框架,用于自动化红队攻击大型语言模型(LLMs),通过设计恶意内容隐藏和内存重构来破解 LLMs,实验证明了我们的框架在有效性、可扩展性和可转移性方面的优越性,并评估现有的越狱防御方法的有效性以及发展更有效和实用的防御策略的重要性。
Mar, 2024