jailbreaking attacks | BriefGPT

关键词jailbreaking attacks

搜索结果 - 17

通过模糊输入对大型语言模型进行越狱
通过采用 ObscurePrompt 方法，从模糊的文本入手，并利用强大的 LLM 进行迭代转换，增强攻击的稳健性，从而提高对 LLM 的破解效果，并改进先前的方法，以增强 LLM 的对齐性能。
PDF13 days ago
通过 Silent Tokens 增强对大型语言模型的越狱攻击
该研究探讨了 L 语言模型的安全威胁，引入了简单的 BOOST 攻击方法，通过在有害问题末尾添加 eos 标记，绕过 LLM 的安全对齐，从而导致成功的越狱攻击。研究发现，在 MLE 对有害问题理解上没有影响的情况下，eos 标记可以增加攻
PDFa month ago
大型语言模型基于优化的越狱技术的改进技术
提出改进的优化方法、多坐标更新策略等技术来实现大语言模型的监狱破解攻击，并在实验中证明其有效性。
PDFa month ago
引入视觉模态的高效 LLM 越狱
该研究聚焦于针对大型语言模型的越狱攻击，以激发其对有害用户查询的回应中生成令人不悦内容。通过将视觉模块融入目标语言模型，构建一个多模态大型语言模型（MLLM），我们使用高效的 MLLM 越狱方法生成越狱嵌入 embJS，并将其转换为文本空间
PDFa month ago
WordGame：通过同时查询和响应模糊隐藏来实现高效和有效的 LLM 越狱
通过同时在查询和响应中进行模糊处理，我们提出了 WordGame 攻击，用于越过当前领先的专有和开源大型语言模型，包括最新的 Claude-3、GPT-4 和 Llama-3 模型的防护措施，从而破坏其对安全对齐的保护。
PDFa month ago
基于逻辑回归的令牌级操作的破解方法：Lockpicking LLMs
大型语言模型（LLMs）已经改变了自然语言处理领域，但它们仍然容易受到越狱攻击的影响，这种攻击利用了它们生成意外和潜在有害内容的能力。我们通过介绍 JailMine，一种有效应对这些限制的创新的基于令牌水平操作的方法，通过自动化的 “挖掘”
PDFa month ago
通过自适应的稠密到稀疏约束优化实现高效 LLM 越狱
最近的研究发现，大型语言模型（LLMs）易受到越狱攻击，可以生成有害内容。本文介绍了一种新颖的令牌级攻击方法，自适应密集到稀疏约束优化（ADC），该方法有效越狱了几个开源 LLMs。我们的方法将离散越狱优化放松为连续优化，并逐渐增加优化向量
PDF2 months ago
抑制拒绝：通过破解抑制性拒绝来破解 LLM
利用 DSN 攻击对大型语言模型进行评估，通过集成评估方法有效地解决了常规评估方法中存在的限制问题。
PDF2 months ago
AdvPrompter: LLMs 的快速自适应敌对提示
通过使用 AdvPrompter 方法，本文提出了一种用于生成人类可读的敌对提示的新方法，生成的提示可以在几秒钟内完成，比现有的基于优化的方法快 800 倍，该方法使得大型语言模型（LLMs）更加抵抗破解攻击而实现高性能。
PDF2 months ago
Eraser: 大语言模型中逆向防御通过遗忘有害知识
本文介绍了一种名为 Eraser 的新型防御方法，它能够有效减少各种攻击对模型的越狱成功率，而不影响模型的一般能力。
PDF3 months ago
通过简单自适应攻击解禁领先的安全对齐 LLMs
展示了最新的安全对齐语言模型 (LLMs) 即使面对简单的适应性越狱攻击也不具有稳健性，并提出了适用于越狱攻击的对抗性提示模板、随机搜索等攻击方法，同时探索了适用于特定情境的不同模型的脆弱性以及特定 API 特征导致的脆弱性，并介绍了在木马
PDF3 months ago
通过反翻译来抵御 LLMs 的越狱攻击
通过后向翻译提出了一种新的防御方法，用于保护大型语言模型免受越狱攻击，该方法明显优于其他方法，并对良性输入提示的生成质量几乎没有影响。
PDF4 months ago
通过语义平滑对抗越狱攻击的大型语言模型防御
防止大语言模型遭受越狱攻击的 SEMANTICSMOOTH 防御机制，在语义攻击方面取得了最先进的鲁棒性成果，并在指导遵循基准测试中保持强大的名义性能。
PDF4 months ago
利用多轮互动增强上下文的越狱攻击
大型语言模型对越狱攻击很容易受到攻击，本研究提出了一种基于上下文互动的攻击形式，通过操作模型的回应引导其透露有害信息。在四个不同的大型语言模型上进行实验证明了该攻击的有效性，并且该攻击可以在不同大型语言模型之间转移。
PDF5 months ago
针对多模式大型语言模型的越狱攻击
该研究聚焦于多模态大型语言模型（MLLMs）的越狱攻击，旨在引导 MLLMs 生成令人反感的响应来对抗危险用户查询。提出了一种基于最大似然的算法，可以寻找 “图像越狱提示”（imgJP），在多个未知提示和图像上实现对 MLLMs 的越狱。我
PDF5 months ago
通过目标优先级保护大型语言模型抵御越狱攻击
通过将目标优先级整合到训练和推理阶段，我们提出了一种对抗越狱攻击的方法，显著降低了越狱攻击的成功率，并减少了大型语言模型的潜在安全风险。
PDF8 months ago
SmoothLLM: 对抗越狱攻击的大型语言模型防御
为了解决大型语言模型在破解攻击中的脆弱性，提出了 SmoothLLM 算法，通过对输入的随机扰动和聚合进行检测，降低了攻击成功率，并在攻击缓解上提供了可证明的保证。
PDF9 months ago