基于自动生成的破解提示,我们提出了ReNeLLM框架来改进大型语言模型的攻击成功率,同时降低时间成本;我们的研究揭示了当前防御方法在保护大型语言模型方面的不足,并从提示执行优先级的角度进行了详细的分析和讨论。
Nov, 2023
通过将目标优先级整合到训练和推理阶段,我们提出了一种对抗越狱攻击的方法,显著降低了越狱攻击的成功率,并减少了大型语言模型的潜在安全风险。
对大型语言模型(也称为LLMs)的滥用进行了研究,发现存在越过社会伦理道德保障的破解攻击,相关研究呈现了不同的破解方法和违规类别,展示了破解提示的攻击效果,以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性,为未来研究提供了启示,并为从业者评估破解攻击提供了基准工具。
Feb, 2024
我们提出了Tastle,一种新颖的黑盒越狱框架,用于自动化红队攻击大型语言模型(LLMs),通过设计恶意内容隐藏和内存重构来破解LLMs,实验证明了我们的框架在有效性、可扩展性和可转移性方面的优越性,并评估现有的越狱防御方法的有效性以及发展更有效和实用的防御策略的重要性。
Mar, 2024
最近的研究发现,大型语言模型(LLMs)易受到越狱攻击,可以生成有害内容。本文介绍了一种新颖的令牌级攻击方法,自适应密集到稀疏约束优化(ADC),该方法有效越狱了几个开源LLMs。我们的方法将离散越狱优化放松为连续优化,并逐渐增加优化向量的稀疏度。因此,我们的方法有效地弥补了离散和连续空间优化之间的差距。实验结果表明,我们的方法比现有的令牌级方法更加有效和高效。在Harmbench上,我们的方法在八个LLMs中有七个达到了最先进的攻击成功率。代码将会提供。触发警告:本文涉及具有冒犯性的模型行为。
May, 2024
通过Layer-specific Editing (LED)方法,本研究探讨了大型语言模型(LLMs)对有害提示的反应,并显示出早期层中存在几个关键的安全层。通过将这些安全层与来自选择目标层的解码安全响应进行重新对齐,可以显著提高LLMs对破解攻击的适应性。
提出改进的优化方法、多坐标更新策略等技术来实现大语言模型的监狱破解攻击,并在实验中证明其有效性。
对大型语言模型中所存在的破解攻击进行评估,并提供一套基准测试框架来推动对防御增强型大型语言模型的攻击的标准化评估。
Jun, 2024
通过提出全面详细的破防攻击和防御方法分类体系,本研究旨在启发未来的研究和实际应用,增强对大语言模型在对抗性攻击中的安全性保障,为发展更安全的大语言模型奠定基础。
Jul, 2024
本研究解决了大型语言模型在越狱攻击中的脆弱性,现有方法无法灵活调整攻击强度。我们提出了一种新颖的可扩展越狱攻击,通过占用计算资源来预先触发安全政策的激活,以实现高成功率的安全措施绕过。实验结果表明,该方法在各种模型规模上都表现良好,揭示了当前LLM安全设计中的关键漏洞。
Oct, 2024