针对安全定向 LLM 的改进对抗样本生成
通过贪婪和基于梯度的搜索技术,自动产生敌对性后缀,实现对齐语言模型的攻击;我们发现这种攻击是可转移的,可以应用于各种公开发布的对齐语言模型,从而引发对如何防止生成不良信息的重要问题。
Jul, 2023
对大型语言模型 (也称为 LLMs) 的滥用进行了研究,发现存在越过社会伦理道德保障的破解攻击,相关研究呈现了不同的破解方法和违规类别,展示了破解提示的攻击效果,以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性,为未来研究提供了启示,并为从业者评估破解攻击提供了基准工具。
Feb, 2024
通过优化包含对抗性提示及其安全响应的数据集,我们提出了一个两阶段的对抗调整框架,用于增强大型语言模型在防御能力方面的广义性,实验证明了我们方法的优越性,并展示了它作为可传输防御机制的潜力。
Jun, 2024
展示了最新的安全对齐语言模型 (LLMs) 即使面对简单的适应性越狱攻击也不具有稳健性,并提出了适用于越狱攻击的对抗性提示模板、随机搜索等攻击方法,同时探索了适用于特定情境的不同模型的脆弱性以及特定 API 特征导致的脆弱性,并介绍了在木马检测领域中使用随机搜索的一种算法。
Apr, 2024
通过使用 AdvPrompter 方法,本文提出了一种用于生成人类可读的敌对提示的新方法,生成的提示可以在几秒钟内完成,比现有的基于优化的方法快 800 倍,该方法使得大型语言模型(LLMs)更加抵抗破解攻击而实现高性能。
Apr, 2024
该研究对破解大型语言模型(LLMs)及其防御技术进行了全面分析,评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果,并释放了数据集和测试框架,以促进 LLM 安全领域的进一步研究。
Feb, 2024
通过 Layer-specific Editing (LED) 方法,本研究探讨了大型语言模型(LLMs)对有害提示的反应,并显示出早期层中存在几个关键的安全层。通过将这些安全层与来自选择目标层的解码安全响应进行重新对齐,可以显著提高 LLMs 对破解攻击的适应性。
May, 2024
本文介绍了在大型语言模型中引入视觉的趋势。讨论了这个趋势的安全和安全风险,指出了高维视觉输入空间本质上是对抗性攻击的理想介质,以及这种趋势的广泛功能使得视觉攻击者有更多的攻击目标。还研究了 MiniGPT-4 对视觉对抗性例子进行了安全机制,并发现对抗性例子可以打破安全机制并生成有害内容。因此,我们强调了对于安全使用视觉语言模型的紧迫需要,需要进行全面的风险评估,强大的防御措施和实施负责任的工作实践。
Jun, 2023
为了解决大型语言模型在破解攻击中的脆弱性,提出了 SmoothLLM 算法,通过对输入的随机扰动和聚合进行检测,降低了攻击成功率,并在攻击缓解上提供了可证明的保证。
Oct, 2023