GPT-4V 挑战红队测试：是否能抵御 Uni/Multi-Modal 越狱攻击？

Apr, 2024

GPT-4V 挑战红队测试：是否能抵御 Uni/Multi-Modal 越狱攻击？

Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?

Shuo Chen, Zhen Han, Bailan He, Zifeng Ding, Wenqian Yu...

TL;DR通过建立全面的 1445 个有害问题的评估数据集，本研究对 11 个不同的大型语言模型和多模式大型语言模型进行了广泛的试验，发现 GPT-4 和 GPT-4V 相对于开源的大型语言模型和多模式大型语言模型表现出更好的恶意入侵攻击耐受性，而 Llama2 和 Qwen-VL-Chat 相对于其他开源模型表现出更高的鲁棒性，并且相对于文本恶意入侵攻击方法，视觉恶意入侵攻击方法的可迁移性相对有限。

Abstract

Various jailbreak attacks have been proposed to red-team Large Language Models (LLMs) and revealed the vulnerable safeguards of LLMs. Besides, some methods are not limited to the textual modality and extend the jailbreak attack to Multimodal →

jailbreak attacks large language models multimodal large language models evaluation benchmark red-teaming experiments

发现论文，激发创造

低资源语言越狱 GPT-4

我们的研究揭示了语言模型的人工智能安全训练和红队测试存在的语言不平等性跨语言漏洞，通过成功将不安全的英文输入转化为低资源语言来规避 GPT-4 的安全机制。我们的工作证明，GPT-4 在与这些不安全的翻译输入互动时会提供可行的建议，并成功帮助用户实现有害目标的可能性高达 79％，这与甚至超过了最先进的越狱攻击。其他资源丰富 / 中等资源语言的攻击成功率显著较低，这表明跨语言漏洞主要适用于低资源语言。以前，对低资源语言的有限训练主要影响那些讲这些语言的人，导致技术差距。然而，我们的研究突出指出了一个关键性的转变：这种不足现在对所有语言模型用户构成风险。公开可用的翻译 API 使任何人都能利用语言模型的安全漏洞。因此，我们的工作呼吁加强整体红队测试工作，以开发具有广泛语言覆盖能力的强大多语言安全保护措施。

Oct, 2023

揭示 GPT-4o 的安全性：使用越狱攻击进行的实证研究

该论文首次对 GPT-4o 进行了严格的安全评估，发现 GPT-4o 在文本模式破解方面具有增强的安全性，同时引入的音频模式为对 GPT-4o 的破解攻击开辟了新的攻击向量，并且现有的黑盒多模态破解攻击方法在 GPT-4o 和 GPT-4V 上效果不佳，这些发现对 GPT-4o 的安全影响提供了重要见解，并强调了在大型模型中需要强大的对齐保护措施。

Jun, 2024

JailBreakV-28K: 评估多模态大语言模型抵抗破解攻击的基准测试

本文研究了对抗大型多模态语言模型（MLLMs）的问题，通过引入 JailBreakV-28K 评估 LLM 越狱技术对 MLLM 的可迁移性，并评估了 MLLM 对多样越狱攻击的鲁棒性，结果表明 MLLM 存在来自文本处理功能的关键脆弱性，强调了未来在文本和图像输入方面解决 MLLM 对齐漏洞的迫切性。

Apr, 2024

大规模语言模型中的多语言越狱挑战

大型语言模型（LLMs）存在潜在的安全隐患，因此需要发展预防措施。本研究揭示了 LLMs 内存在的多语言破解挑战，并针对意外和恶意的风险场景进行了探讨。实验结果显示，在多语言环境中，通过自卫框架进行训练可以显著减少 LLMs 生成的不安全内容。

Oct, 2023

大型语言模型中越狱攻击的跨语言调查

通过广泛的实证研究，我们对多语言越狱攻击进行了深入探究，提出了一种新的语义保持算法来创建多语言越狱数据集，并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估，并实施了微调缓解方法。我们的发现显示出，我们的缓解策略显著增强了模型的防御能力，将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。

Jan, 2024

红队模拟可视化语言模型

研究通过 RTVLM 数据集评估当前开源 VLM 在红队评测中的性能差距，结果显示这些 VLM 在不同程度上面临红队挑战，并且与 GPT-4V 相比，性能差距高达 31%。将红队诱导方法应用于 LLaVA-v1.5 模型，性能提高了 10% 以上，并显示出其他基于 LLaVA 的模型无法达到的性能，同时产生的数据对性能并无明显下降。

Jan, 2024

通过自对抗攻击和系统提示实施对 GPT-4V 的越狱

通过从 GPT-4V 中成功窃取内部系统提示并使用 SASP（自我对抗攻击系统提示）方法进行监狱破解，本研究发现了 Multimodal Large Language Models（MLLMs）的潜在安全风险并提出了相应的防御方法，以显著降低监狱破解的成功率。

Nov, 2023

越狱：LLM 安全培训如何失败？

本文研究大型语言模型中的安全问题，提出两种安全训练的失败模式，分别是竞争目标和广义不符合。作者发现，这些安全问题无法通过红队测试和安全培训解决，并提出需要将安全机制的复杂度与模型的能力相匹配。

Jul, 2023

LLM 越狱攻击与防御技术 -- 综合研究

该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进一步研究。

Feb, 2024

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024