SpeechGuard: 多模态大型语言模型的对抗鲁棒性探索

ACLMay, 2024

SpeechGuard: 多模态大型语言模型的对抗鲁棒性探索

SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models

Raghuveer Peri, Sai Muralidhar Jayanthi, Srikanth Ronanki, Anshu Bhatia, Karel Mundnich...

TL;DR通过设计算法进行白盒和黑盒攻击以实现越狱，提出了对抗越狱攻击的对策，并展示了该对策显著降低攻击成功率。

Abstract

integrated speech and large language models (SLMs) that can follow speech instructions and generate relevant text responses have gained popularity lately. However, the safety and robustness of these models remain

integrated speech large language models adversarial attacks jailbreaking countermeasures

发现论文，激发创造

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

针对安全定向 LLM 的改进对抗样本生成

通过借鉴转移式攻击的思想，结合渐变式对抗性提示生成过程，我们改进了自动生成的对抗性示例以攻击白盒大语言模型，取得了显著的性能提升，同时也提出了新的见解和适当的方法组合。

May, 2024

JailBreakV-28K: 评估多模态大语言模型抵抗破解攻击的基准测试

本文研究了对抗大型多模态语言模型（MLLMs）的问题，通过引入 JailBreakV-28K 评估 LLM 越狱技术对 MLLM 的可迁移性，并评估了 MLLM 对多样越狱攻击的鲁棒性，结果表明 MLLM 存在来自文本处理功能的关键脆弱性，强调了未来在文本和图像输入方面解决 MLLM 对齐漏洞的迫切性。

Apr, 2024

自护：赋予 LLM 保护自身能力

利用自我保护方法 (Self-Guard) 来解决语言模型 (LLM) 被越狱攻击的问题，包括增强模型对有害内容的检测能力以及指导模型在自我响应中进行有害内容检测，实验证明自我保护方法对抵御越狱攻击具有鲁棒性且不会降低 LLM 的性能。

Oct, 2023

对抗调整：为 LLMs 防御越狱攻击

通过优化包含对抗性提示及其安全响应的数据集，我们提出了一个两阶段的对抗调整框架，用于增强大型语言模型在防御能力方面的广义性，实验证明了我们方法的优越性，并展示了它作为可传输防御机制的潜力。

Jun, 2024

通过伪装和重构在少量查询中解封大型语言模型的方法

通过识别安全微调中的偏差漏洞并设计一种称为 DRA（伪装和重构攻击）的黑盒越狱方法，我们在 LLMs 安全方面开创了理论基础。我们评估了 DRA 在各种开源和闭源模型上的效果，并展示了最先进的越狱成功率和攻击效率，特别是在 LLM 聊天机器人 GPT-4 上，DRA 拥有 90％的攻击成功率。

Feb, 2024

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023

大型语言模型中越狱攻击的跨语言调查

通过广泛的实证研究，我们对多语言越狱攻击进行了深入探究，提出了一种新的语义保持算法来创建多语言越狱数据集，并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估，并实施了微调缓解方法。我们的发现显示出，我们的缓解策略显著增强了模型的防御能力，将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。

Jan, 2024

LLM 越狱攻击与防御技术 -- 综合研究

该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进一步研究。

Feb, 2024

通过双模式对抗启示破解视觉语言模型

利用 Bi-Modal Adversarial Prompt Attack 方法，通过优化文字和视觉提示共同实施监狱突破攻击，大幅提高攻击成功率。

Jun, 2024