大规模语言模型中的多语言越狱挑战
通过广泛的实证研究,我们对多语言越狱攻击进行了深入探究,提出了一种新的语义保持算法来创建多语言越狱数据集,并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估,并实施了微调缓解方法。我们的发现显示出,我们的缓解策略显著增强了模型的防御能力,将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。
Jan, 2024
我们的研究揭示了语言模型的人工智能安全训练和红队测试存在的语言不平等性跨语言漏洞,通过成功将不安全的英文输入转化为低资源语言来规避 GPT-4 的安全机制。我们的工作证明,GPT-4 在与这些不安全的翻译输入互动时会提供可行的建议,并成功帮助用户实现有害目标的可能性高达 79%,这与甚至超过了最先进的越狱攻击。其他资源丰富 / 中等资源语言的攻击成功率显著较低,这表明跨语言漏洞主要适用于低资源语言。以前,对低资源语言的有限训练主要影响那些讲这些语言的人,导致技术差距。然而,我们的研究突出指出了一个关键性的转变:这种不足现在对所有语言模型用户构成风险。公开可用的翻译 API 使任何人都能利用语言模型的安全漏洞。因此,我们的工作呼吁加强整体红队测试工作,以开发具有广泛语言覆盖能力的强大多语言安全保护措施。
Oct, 2023
对大型语言模型 (也称为 LLMs) 的滥用进行了研究,发现存在越过社会伦理道德保障的破解攻击,相关研究呈现了不同的破解方法和违规类别,展示了破解提示的攻击效果,以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性,为未来研究提供了启示,并为从业者评估破解攻击提供了基准工具。
Feb, 2024
大型语言模型容易受到称为 Jailbreak 的创新提示的影响,本文提出使用加密技术对越狱提示进行编码,实验结果表明我们提出的越狱方法在 ChatGPT、GPT-4 和 Gemini-Pro 等先进专有模型上的攻击成功率高达 59.42%,此外,我们还讨论了这些模型的过度防御性。
Feb, 2024
这项研究识别了大型语言模型(LLMs)对 “越狱” 攻击的潜在漏洞,特别关注阿拉伯语及其不同形式。我们的调查拓宽了研究范围,探究了阿拉伯语言。我们最初在标准阿拉伯语上测试了 AdvBench 基准测试,发现即使采用前缀注入等提示操纵技术,也无法引发 LLMs 生成不安全内容。然而,当使用阿拉伯语转写和聊天缩写(或阿拉伯注音文字)时,我们发现在 OpenAI GPT-4 和 Anthropic Claude 3 Sonnet 等平台上可以生成不安全内容。我们的发现表明,使用阿拉伯语及其不同形式可能会暴露可能隐藏的信息,从而可能增加越狱攻击的风险。我们假设这种暴露可能是由于模型与特定单词的学习连接,强调需要在所有语言形式中进行更全面的安全培训。
Jun, 2024
通过研究语言模型监管的方法和攻击,本文提出一种自动破解监管的方法,即引入语意防火墙概念并提供三种技术实现方式,从而成功地实施了 “自欺” 攻击。实验证明该方法的有效性,为未来研究提供了启示。
Aug, 2023
通过对 wild 中的 jailbreak prompts 进行第一次测量研究,我们发现了 jailbreak prompts 的独特特征以及其攻击策略,并评估了当前 LLMs 和保护措施在各种情况下不能充分防御 jailbreak prompts 的潜在危害,这为研究界和 LLM 供应商在推动更安全和监管的 LLMs 方面提供了指导。
Aug, 2023
本文研究大型语言模型中的安全问题,提出两种安全训练的失败模式,分别是竞争目标和广义不符合。作者发现,这些安全问题无法通过红队测试和安全培训解决,并提出需要将安全机制的复杂度与模型的能力相匹配。
Jul, 2023
本研究运用诸如指令调整和来自人类或人工智能反馈的强化学习等技术,提出了一个潜在的越狱 Prompts 数据集,旨在全面研究大型语言模型的文本安全性和输出鲁棒性,结果表明当前的 LLMs 不仅偏爱某些指令动词,而且在显式正常指令中存在不同的越狱率,这意味着在显式正常指令中的指令动词将不同程度地增强模型生成不安全内容的概率。
Jul, 2023
该研究对破解大型语言模型(LLMs)及其防御技术进行了全面分析,评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果,并释放了数据集和测试框架,以促进 LLM 安全领域的进一步研究。
Feb, 2024