揭示 GPT-4o 的安全性:使用越狱攻击进行的实证研究
GPT-4o 的最新多模态大型语言模型(MLLM)在音频、视觉和文本领域的推出进一步模糊了虚构与现实之间的界限,但其声音模式的引入也可能导致新的攻击面。本文是首次系统评估针对 GPT-4o 声音模式的越狱攻击,我们通过虚构叙事方式(背景、角色和情节)提出了一种称为 VoiceJailbreak 的新型声音越狱攻击方法,该方法通过生成简单而有效的越狱提示,在六种禁止情境下将攻击成功率(ASR)从 0.033 提高到 0.778。我们还进行了大量实验,探索了交互步骤、虚构写作的关键元素以及不同语言对 VoiceJailbreak 的影响,并通过高级虚构写作技术进一步提升攻击性能。希望我们的研究能帮助研究界构建更安全、更规范的 MLLMs。
May, 2024
通过建立全面的 1445 个有害问题的评估数据集,本研究对 11 个不同的大型语言模型和多模式大型语言模型进行了广泛的试验,发现 GPT-4 和 GPT-4V 相对于开源的大型语言模型和多模式大型语言模型表现出更好的恶意入侵攻击耐受性,而 Llama2 和 Qwen-VL-Chat 相对于其他开源模型表现出更高的鲁棒性,并且相对于文本恶意入侵攻击方法,视觉恶意入侵攻击方法的可迁移性相对有限。
Apr, 2024
GPT-4V 被广泛关注,其强大的多模态信息整合和处理能力一方面引发了隐私泄漏的新安全问题,研究者尽管通过 RLHF 或预处理过滤器进行安全对齐的努力,但仍可能存在被攻击利用的漏洞。本研究提出了 AutoJailbreak,一种受提示优化启发的创新自动越狱技术,利用大型语言模型(LLMs)进行红队测试,通过强化上下文学习提示来提高效率。此外,我们提出了一种有效的搜索方法,结合了提前停止以减少优化时间和标记消耗。我们的实验证明,AutoJailbreak 显著超越传统方法,攻击成功率(ASR)超过 95.3%。这项研究为增强 GPT-4V 的安全性提供了新思路,凸显了利用 LLMs 破坏 GPT-4V 完整性的潜力。
Jul, 2024
本文研究大型语言模型中的安全问题,提出两种安全训练的失败模式,分别是竞争目标和广义不符合。作者发现,这些安全问题无法通过红队测试和安全培训解决,并提出需要将安全机制的复杂度与模型的能力相匹配。
Jul, 2023
大型语言模型(LLMs)存在潜在的安全隐患,因此需要发展预防措施。本研究揭示了 LLMs 内存在的多语言破解挑战,并针对意外和恶意的风险场景进行了探讨。实验结果显示,在多语言环境中,通过自卫框架进行训练可以显著减少 LLMs 生成的不安全内容。
Oct, 2023
通过从 GPT-4V 中成功窃取内部系统提示并使用 SASP(自我对抗攻击系统提示)方法进行监狱破解,本研究发现了 Multimodal Large Language Models(MLLMs)的潜在安全风险并提出了相应的防御方法,以显著降低监狱破解的成功率。
Nov, 2023
我们的研究揭示了语言模型的人工智能安全训练和红队测试存在的语言不平等性跨语言漏洞,通过成功将不安全的英文输入转化为低资源语言来规避 GPT-4 的安全机制。我们的工作证明,GPT-4 在与这些不安全的翻译输入互动时会提供可行的建议,并成功帮助用户实现有害目标的可能性高达 79%,这与甚至超过了最先进的越狱攻击。其他资源丰富 / 中等资源语言的攻击成功率显著较低,这表明跨语言漏洞主要适用于低资源语言。以前,对低资源语言的有限训练主要影响那些讲这些语言的人,导致技术差距。然而,我们的研究突出指出了一个关键性的转变:这种不足现在对所有语言模型用户构成风险。公开可用的翻译 API 使任何人都能利用语言模型的安全漏洞。因此,我们的工作呼吁加强整体红队测试工作,以开发具有广泛语言覆盖能力的强大多语言安全保护措施。
Oct, 2023
Sora 的最新发展带来了文本到视频(T2V)生成的新时代,但也引起了对其安全风险的关注。文章引入了 T2VSafetyBench,这个新的基准旨在进行安全关键评估,定义了视频生成安全的 12 个关键方面并构建了恶意提示数据集,结果显示了模型的异质性和使用性与安全性之间的权衡,强调了在生成 AI 时优先考虑视频安全的紧迫性。
Jul, 2024
GPT-4o 综合评估了大型语言模型(LLMs)在语言、视觉、语音和多模态能力方面的性能,结果显示 GPT-4o 在语言和推理能力的多个领域表现出高准确性和高效率,尤其在需要少样本学习的任务上表现出色,并在多模态任务方面相较于先前模型取得显著改进,但在处理复杂和模糊输入方面存在一定的变异性和限制,尤其在音频和视觉能力方面。该研究强调了需要更全面的基准和稳健的评估框架,包括定性评估以及错误分析,未来的工作应着重于扩展数据集,研究基于提示的评估,以及提升少样本学习技术以测试模型在实际场景中的适用性和性能。
Jun, 2024