jailbreaking | BriefGPT - AI 论文速递

关键词jailbreaking

搜索结果 - 16

面向 LLM 的破解攻击的理解：表示空间分析
通过研究大型语言模型中的有害和无害提示在表示空间中的行为，探讨成功越狱攻击的内在特性，并利用隐藏表示引入现有越狱攻击的目标，通过实验证实上述假设。希望该研究能为理解大型语言模型如何理解有害信息提供新的见解。
PDF16 days ago
SelfDefend: LLMs 能够以实用方式自我防护免受越狱攻击
这篇论文介绍了一种名为 SelfDefend 的通用 LLM 监狱破解防御框架，通过在正常堆栈中建立影子 LLM 防御实例并与目标 LLM 实例协同工作来保护目标 LLM 实例。测量结果表明，SelfDefend 可使 GPT-3.5 的攻
PDF24 days ago
文本到图像生成 AI 系统的自动越狱
最近的 AI 系统在各种任务上展现了极强的性能，甚至超过了人类的表现，包括基于大型语言模型（LLMs）的信息检索、语言生成和图像生成。然而，由于绕过 LLMs 的对齐而产生恶意内容的各种安全风险，通常被称为越狱，而以文本为基础的 LLMs
PDFa month ago
GPT-4 使用自述功能成功自我解锁
通过使用自我解释的迭代细化的对抗性提示，利用大语言模型的反射能力，本研究引入了一种名为 IRIS 的新方法来打破监狱，该方法将同一模型同时用作攻击者和目标，提高了破坏性，同时降低了查询次数，极大地改进了自动化、黑盒和可解释性的监狱打破效率，
PDFa month ago
ACLSpeechGuard: 多模态大型语言模型的对抗鲁棒性探索
通过设计算法进行白盒和黑盒攻击以实现越狱，提出了对抗越狱攻击的对策，并展示了该对策显著降低攻击成功率。
PDF2 months ago
学会看但忘记跟随：视觉指令调整使 LLMs 更容易遭受越狱攻击
研究通过图像理解扩展大型语言模型（LLMs）已经产生了高性能的视觉语言模型（VLMs）。虽然研究 LLMs 与人类价值观的一致性已经得到了广泛的关注，但 VLMs 的安全性却未受到同样的关注。本文探讨了越狱对三种最先进的 VLMs 的影响，
PDF2 months ago
您的 “安全” 数据中有什么？：识别破坏安全性的良性数据
通过双向锚定方法优先选择与有害示例接近但远离良性示例的数据点，我们的方法有效地识别了在微调后可能降低模型安全性的良性数据子集。
PDF3 months ago
Tastle: 自动越狱攻击中的大型语言模型分散技术
我们提出了 Tastle，一种新颖的黑盒越狱框架，用于自动化红队攻击大型语言模型（LLMs），通过设计恶意内容隐藏和内存重构来破解 LLMs，实验证明了我们的框架在有效性、可扩展性和可转移性方面的优越性，并评估现有的越狱防御方法的有效性以及
PDF4 months ago
CodeChameleon：为大型语言模型破解定制的加密框架
通过引入个性化加密策略的新型越狱框架 CodeChameleon，本研究研究了对大型语言模型（LLMs）的安全和伦理协议进行绕过的敌对滥用，提出了基于意图安全识别和响应生成的安全机制假设。我们通过将任务转化为代码完成格式，使用户能够使用个性
PDF4 months ago
援足门：通过认知心理学理解大型语言模型破解
大规模语言模型（LLM）的研究揭示了其内在决策逻辑，特别是在面对越狱攻击时的认知一致性理论和自动黑盒越狱方法。
PDF4 months ago
LLMs 在实践中可以自我防御破解：一篇展望性论文
Jailbreaking is an emerging adversarial attack that bypasses the safety alignment deployed in off-the-shelf large langua
PDF4 months ago
LLM 越狱攻击与防御技术 -- 综合研究
该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进
PDF4 months ago
针对越狱攻击的强化预设优化
通过使用梯度优化的方法，我们提出了一种防御语言模型遭受恶意输入攻击的算法，Robust Prompt Optimization (RPO)，有效地降低了对抗性攻击的成功率，并在黑盒模型中表现出了良好的转移能力。
PDF5 months ago
大型语言模型上的从弱到强破解
通过实验，研究发现了对齐的大型语言模型存在监狱突破漏洞，提出了一种弱到强的监狱突破攻击方法，并介绍了一种针对该攻击的防御策略。
PDF5 months ago
通过全球规模的提示破解竞赛揭示 LLM 系统的系统性漏洞
通过全球 prompt 黑客竞赛，我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击，提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集，并提出了对敌对 prompt 类型的综合分类本体论。
PDF8 months ago
使用少量上下文示例对越狱和防卫对齐的语言模型进行训练
通过提供少量上下文演示数据，不需要微调，我们发现大型语言模型可以被操纵以增加或减少越狱的概率。我们提出了越狱攻击和守护方法，通过恶意上下文引导模型生成有害输出，并通过拒绝回答有害提示的演示来增强模型的鲁棒性。我们的实验表明，越狱攻击和守护方
PDF9 months ago