通过简单自适应攻击解禁领先的安全对齐 LLMs
对大型语言模型 (也称为 LLMs) 的滥用进行了研究,发现存在越过社会伦理道德保障的破解攻击,相关研究呈现了不同的破解方法和违规类别,展示了破解提示的攻击效果,以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性,为未来研究提供了启示,并为从业者评估破解攻击提供了基准工具。
Feb, 2024
通过借鉴转移式攻击的思想,结合渐变式对抗性提示生成过程,我们改进了自动生成的对抗性示例以攻击白盒大语言模型,取得了显著的性能提升,同时也提出了新的见解和适当的方法组合。
May, 2024
为了解决大型语言模型在破解攻击中的脆弱性,提出了 SmoothLLM 算法,通过对输入的随机扰动和聚合进行检测,降低了攻击成功率,并在攻击缓解上提供了可证明的保证。
Oct, 2023
本研究提出了形式主义和已知(和可能的)越狱攻击分类,并在开源和商业 LLM(如 GPT 3.5,OPT,BLOOM 和 FLAN-T5-xxl)上进行了现有越狱方法及其有效性的调查;我们进一步提出了一组有限的提示守卫,并讨论了其对已知攻击类型的有效性。
May, 2023
该研究对破解大型语言模型(LLMs)及其防御技术进行了全面分析,评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果,并释放了数据集和测试框架,以促进 LLM 安全领域的进一步研究。
Feb, 2024
大型语言模型容易受到称为 Jailbreak 的创新提示的影响,本文提出使用加密技术对越狱提示进行编码,实验结果表明我们提出的越狱方法在 ChatGPT、GPT-4 和 Gemini-Pro 等先进专有模型上的攻击成功率高达 59.42%,此外,我们还讨论了这些模型的过度防御性。
Feb, 2024
通过使用以 ChatGPT 为目标的简单黑盒方法,本研究有效地生成越过伦理规定的提示,突破了现有方法的复杂性和计算成本的限制,该方法通过 LLM 自身将有害的提示迭代地重写为无害表达式,该研究结果表明,创建有效的越狱提示比以前认为的更简单,并且黑盒越狱攻击构成了更严重的安全威胁。
Jan, 2024
通过修剪大型语言模型(LLM)的参数,可以显著提高其对 Jailbreaking 提示的抵抗力,而且不需要额外的训练,并且在标准基准测试中不会牺牲性能。此外,我们引入了一个由 225 个有害任务组成的精选数据集,并将其插入到 10 个不同的 Jailbreaking 提示中,结果显示修剪有助于 LLM 集中注意力于与提示相关的标记。最后,我们的实验揭示了著名的聊天模型(如 LLaMA-2 Chat,Vicuna 和 Mistral Instruct)对 Jailbreaking 攻击非常容易受到攻击,某些类别的成功率接近 70-100%。这些结果凸显了修剪作为提高 LLM 的安全性、可靠性和其他所期望行为的可推广方法的潜力。
Jan, 2024