- 通过模糊输入对大型语言模型进行越狱
通过采用 ObscurePrompt 方法,从模糊的文本入手,并利用强大的 LLM 进行迭代转换,增强攻击的稳健性,从而提高对 LLM 的破解效果,并改进先前的方法,以增强 LLM 的对齐性能。
- 通过 Silent Tokens 增强对大型语言模型的越狱攻击
该研究探讨了 L 语言模型的安全威胁,引入了简单的 BOOST 攻击方法,通过在有害问题末尾添加 eos 标记,绕过 LLM 的安全对齐,从而导致成功的越狱攻击。研究发现,在 MLE 对有害问题理解上没有影响的情况下,eos 标记可以增加攻 - 大型语言模型基于优化的越狱技术的改进技术
提出改进的优化方法、多坐标更新策略等技术来实现大语言模型的监狱破解攻击,并在实验中证明其有效性。
- 引入视觉模态的高效 LLM 越狱
该研究聚焦于针对大型语言模型的越狱攻击,以激发其对有害用户查询的回应中生成令人不悦内容。通过将视觉模块融入目标语言模型,构建一个多模态大型语言模型(MLLM),我们使用高效的 MLLM 越狱方法生成越狱嵌入 embJS,并将其转换为文本空间 - WordGame:通过同时查询和响应模糊隐藏来实现高效和有效的 LLM 越狱
通过同时在查询和响应中进行模糊处理,我们提出了 WordGame 攻击,用于越过当前领先的专有和开源大型语言模型,包括最新的 Claude-3、GPT-4 和 Llama-3 模型的防护措施,从而破坏其对安全对齐的保护。
- 基于逻辑回归的令牌级操作的破解方法:Lockpicking LLMs
大型语言模型(LLMs)已经改变了自然语言处理领域,但它们仍然容易受到越狱攻击的影响,这种攻击利用了它们生成意外和潜在有害内容的能力。我们通过介绍 JailMine,一种有效应对这些限制的创新的基于令牌水平操作的方法,通过自动化的 “挖掘” - 通过自适应的稠密到稀疏约束优化实现高效 LLM 越狱
最近的研究发现,大型语言模型(LLMs)易受到越狱攻击,可以生成有害内容。本文介绍了一种新颖的令牌级攻击方法,自适应密集到稀疏约束优化(ADC),该方法有效越狱了几个开源 LLMs。我们的方法将离散越狱优化放松为连续优化,并逐渐增加优化向量 - 抑制拒绝:通过破解抑制性拒绝来破解 LLM
利用 DSN 攻击对大型语言模型进行评估,通过集成评估方法有效地解决了常规评估方法中存在的限制问题。
- AdvPrompter: LLMs 的快速自适应敌对提示
通过使用 AdvPrompter 方法,本文提出了一种用于生成人类可读的敌对提示的新方法,生成的提示可以在几秒钟内完成,比现有的基于优化的方法快 800 倍,该方法使得大型语言模型(LLMs)更加抵抗破解攻击而实现高性能。
- Eraser: 大语言模型中逆向防御通过遗忘有害知识
本文介绍了一种名为 Eraser 的新型防御方法,它能够有效减少各种攻击对模型的越狱成功率,而不影响模型的一般能力。
- 通过简单自适应攻击解禁领先的安全对齐 LLMs
展示了最新的安全对齐语言模型 (LLMs) 即使面对简单的适应性越狱攻击也不具有稳健性,并提出了适用于越狱攻击的对抗性提示模板、随机搜索等攻击方法,同时探索了适用于特定情境的不同模型的脆弱性以及特定 API 特征导致的脆弱性,并介绍了在木马 - 通过反翻译来抵御 LLMs 的越狱攻击
通过后向翻译提出了一种新的防御方法,用于保护大型语言模型免受越狱攻击,该方法明显优于其他方法,并对良性输入提示的生成质量几乎没有影响。
- 通过语义平滑对抗越狱攻击的大型语言模型防御
防止大语言模型遭受越狱攻击的 SEMANTICSMOOTH 防御机制,在语义攻击方面取得了最先进的鲁棒性成果,并在指导遵循基准测试中保持强大的名义性能。
- 利用多轮互动增强上下文的越狱攻击
大型语言模型对越狱攻击很容易受到攻击,本研究提出了一种基于上下文互动的攻击形式,通过操作模型的回应引导其透露有害信息。在四个不同的大型语言模型上进行实验证明了该攻击的有效性,并且该攻击可以在不同大型语言模型之间转移。
- 针对多模式大型语言模型的越狱攻击
该研究聚焦于多模态大型语言模型(MLLMs)的越狱攻击,旨在引导 MLLMs 生成令人反感的响应来对抗危险用户查询。提出了一种基于最大似然的算法,可以寻找 “图像越狱提示”(imgJP),在多个未知提示和图像上实现对 MLLMs 的越狱。我 - 通过目标优先级保护大型语言模型抵御越狱攻击
通过将目标优先级整合到训练和推理阶段,我们提出了一种对抗越狱攻击的方法,显著降低了越狱攻击的成功率,并减少了大型语言模型的潜在安全风险。
- SmoothLLM: 对抗越狱攻击的大型语言模型防御
为了解决大型语言模型在破解攻击中的脆弱性,提出了 SmoothLLM 算法,通过对输入的随机扰动和聚合进行检测,降低了攻击成功率,并在攻击缓解上提供了可证明的保证。