援足门:通过认知心理学理解大型语言模型破解
本研究提出了形式主义和已知(和可能的)越狱攻击分类,并在开源和商业 LLM(如 GPT 3.5,OPT,BLOOM 和 FLAN-T5-xxl)上进行了现有越狱方法及其有效性的调查;我们进一步提出了一组有限的提示守卫,并讨论了其对已知攻击类型的有效性。
May, 2023
通过设计和分析敏感问题,揭示了一个更有效的在 LLMs 中识别漏洞的方法,旨在推进 LLM 的安全,这不仅挑战了现有的越狱方法学,而且加强了 LLMs 对潜在攻击的防范。
Apr, 2024
对大型语言模型 (也称为 LLMs) 的滥用进行了研究,发现存在越过社会伦理道德保障的破解攻击,相关研究呈现了不同的破解方法和违规类别,展示了破解提示的攻击效果,以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性,为未来研究提供了启示,并为从业者评估破解攻击提供了基准工具。
Feb, 2024
通过系统化研究和用户调查,我们发现生成式 AI 技术中的大型语言模型 (LLMs) 存在滥用、绕过安全限制的风险,尤其是使用 jailbreak prompts 进行潜在有害内容的生成,为了应对这一问题,我们开发了一个基于人工智能的系统来自动化产生 jailbreak prompts 的过程。
Mar, 2024
通过针对大型语言模型的认知结构与过程进行专门设计的破解攻击,本文揭示了多语言认知过载、隐晦表达和因果推理等对大型语言模型的安全漏洞,实验证明这些攻击可以成功破解主要的研究模型,并且现有的防御策略不能有效地抵御这些恶意使用。
Nov, 2023
通过与领域专家合作,我们提出了一个辅助框架来简化对繁琐的破解分析过程,并设计了一个视觉分析系统,帮助用户评估模型安全性并识别模型弱点。
Apr, 2024
该研究聚焦于多模态大型语言模型(MLLMs)的越狱攻击,旨在引导 MLLMs 生成令人反感的响应来对抗危险用户查询。提出了一种基于最大似然的算法,可以寻找 “图像越狱提示”(imgJP),在多个未知提示和图像上实现对 MLLMs 的越狱。我们的方法具有很强的模型可迁移性,生成的 imgJP 可被转移到各种模型中,包括 MiniGPT-v2、LLaVA、InstructBLIP 和 mPLUG-Owl2 等,以黑盒方式进行越狱。此外,我们揭示了 MLLM 越狱和 LLM 越狱之间的联系。因此,我们引入了一种基于构造的方法,将我们的方法应用于 LLM 越狱,比当前最先进的方法更高效。代码可在此处找到。警告:一些由语言模型生成的内容可能对某些读者具有冒犯性。
Feb, 2024
通过对 wild 中的 jailbreak prompts 进行第一次测量研究,我们发现了 jailbreak prompts 的独特特征以及其攻击策略,并评估了当前 LLMs 和保护措施在各种情况下不能充分防御 jailbreak prompts 的潜在危害,这为研究界和 LLM 供应商在推动更安全和监管的 LLMs 方面提供了指导。
Aug, 2023
LLMs 容易受到破解攻击,本研究提出了一种 DeepInception 方法来解除 LLMs 在使用控制方面的限制,揭示了它们的关键弱点,需加强安全性的防御。
Nov, 2023
该研究对破解大型语言模型(LLMs)及其防御技术进行了全面分析,评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果,并释放了数据集和测试框架,以促进 LLM 安全领域的进一步研究。
Feb, 2024