低资源语言越狱 GPT-4

Oct, 2023

Low-Resource Languages Jailbreak GPT-4

Zheng-Xin Yong, Cristina Menghini, Stephen H. Bach

TL;DR我们的研究揭示了语言模型的人工智能安全训练和红队测试存在的语言不平等性跨语言漏洞，通过成功将不安全的英文输入转化为低资源语言来规避 GPT-4 的安全机制。我们的工作证明，GPT-4 在与这些不安全的翻译输入互动时会提供可行的建议，并成功帮助用户实现有害目标的可能性高达 79％，这与甚至超过了最先进的越狱攻击。其他资源丰富 / 中等资源语言的攻击成功率显著较低，这表明跨语言漏洞主要适用于低资源语言。以前，对低资源语言的有限训练主要影响那些讲这些语言的人，导致技术差距。然而，我们的研究突出指出了一个关键性的转变：这种不足现在对所有语言模型用户构成风险。公开可用的翻译 API 使任何人都能利用语言模型的安全漏洞。因此，我们的工作呼吁加强整体红队测试工作，以开发具有广泛语言覆盖能力的强大多语言安全保护措施。

Abstract

ai safety training and red-teaming of large language models (LLMs) are measures to mitigate the generation of unsafe content. Our work exp

ai safety training red-teaming large language models cross-lingual vulnerability low-resource languages

发现论文，激发创造

大规模语言模型中的多语言越狱挑战

大型语言模型（LLMs）存在潜在的安全隐患，因此需要发展预防措施。本研究揭示了 LLMs 内存在的多语言破解挑战，并针对意外和恶意的风险场景进行了探讨。实验结果显示，在多语言环境中，通过自卫框架进行训练可以显著减少 LLMs 生成的不安全内容。

Oct, 2023

大型语言模型中越狱攻击的跨语言调查

通过广泛的实证研究，我们对多语言越狱攻击进行了深入探究，提出了一种新的语义保持算法来创建多语言越狱数据集，并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估，并实施了微调缓解方法。我们的发现显示出，我们的缓解策略显著增强了模型的防御能力，将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。

Jan, 2024

GPT-4V 挑战红队测试：是否能抵御 Uni/Multi-Modal 越狱攻击？

通过建立全面的 1445 个有害问题的评估数据集，本研究对 11 个不同的大型语言模型和多模式大型语言模型进行了广泛的试验，发现 GPT-4 和 GPT-4V 相对于开源的大型语言模型和多模式大型语言模型表现出更好的恶意入侵攻击耐受性，而 Llama2 和 Qwen-VL-Chat 相对于其他开源模型表现出更高的鲁棒性，并且相对于文本恶意入侵攻击方法，视觉恶意入侵攻击方法的可迁移性相对有限。

Apr, 2024

大型语言模型能否自动越狱 GPT-4V?

GPT-4V 被广泛关注，其强大的多模态信息整合和处理能力一方面引发了隐私泄漏的新安全问题，研究者尽管通过 RLHF 或预处理过滤器进行安全对齐的努力，但仍可能存在被攻击利用的漏洞。本研究提出了 AutoJailbreak，一种受提示优化启发的创新自动越狱技术，利用大型语言模型（LLMs）进行红队测试，通过强化上下文学习提示来提高效率。此外，我们提出了一种有效的搜索方法，结合了提前停止以减少优化时间和标记消耗。我们的实验证明，AutoJailbreak 显著超越传统方法，攻击成功率（ASR）超过 95.3％。这项研究为增强 GPT-4V 的安全性提供了新思路，凸显了利用 LLMs 破坏 GPT-4V 完整性的潜力。

Jul, 2024

利用阿拉伯音译和阿拉伯数字输入赋予 LLM 释放权限

这项研究识别了大型语言模型（LLMs）对 “越狱” 攻击的潜在漏洞，特别关注阿拉伯语及其不同形式。我们的调查拓宽了研究范围，探究了阿拉伯语言。我们最初在标准阿拉伯语上测试了 AdvBench 基准测试，发现即使采用前缀注入等提示操纵技术，也无法引发 LLMs 生成不安全内容。然而，当使用阿拉伯语转写和聊天缩写（或阿拉伯注音文字）时，我们发现在 OpenAI GPT-4 和 Anthropic Claude 3 Sonnet 等平台上可以生成不安全内容。我们的发现表明，使用阿拉伯语及其不同形式可能会暴露可能隐藏的信息，从而可能增加越狱攻击的风险。我们假设这种暴露可能是由于模型与特定单词的学习连接，强调需要在所有语言形式中进行更全面的安全培训。

Jun, 2024

越狱：LLM 安全培训如何失败？

本文研究大型语言模型中的安全问题，提出两种安全训练的失败模式，分别是竞争目标和广义不符合。作者发现，这些安全问题无法通过红队测试和安全培训解决，并提出需要将安全机制的复杂度与模型的能力相匹配。

Jul, 2023

使用词替代密码破解专有大型语言模型

大型语言模型容易受到称为 Jailbreak 的创新提示的影响，本文提出使用加密技术对越狱提示进行编码，实验结果表明我们提出的越狱方法在 ChatGPT、GPT-4 和 Gemini-Pro 等先进专有模型上的攻击成功率高达 59.42％，此外，我们还讨论了这些模型的过度防御性。

Feb, 2024

自我欺骗：大型语言模型语义防火墙的逆渗透

通过研究语言模型监管的方法和攻击，本文提出一种自动破解监管的方法，即引入语意防火墙概念并提供三种技术实现方式，从而成功地实施了 “自欺” 攻击。实验证明该方法的有效性，为未来研究提供了启示。

Aug, 2023

快速采用，隐含风险：大型语言模型定制的双重影响

我们的研究论文首次提出了针对与不受信任的定制大型语言模型（例如 GPTs）集成的应用程序的指令后门攻击，这些攻击通过设计带有后门指令的提示将后门嵌入到定制的语言模型中，并在输入包含预定义触发器时输出攻击者所需的结果。我们的研究结果强调了定制化语言模型（如 GPTs）的脆弱性和潜在风险。

Feb, 2024

LLM 越狱攻击与防御技术 -- 综合研究

该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进一步研究。

Feb, 2024