学会伪装：通过多智能体攻击者 - 伪装者游戏避免 LLM 的拒绝回应

Apr, 2024

学会伪装：通过多智能体攻击者 - 伪装者游戏避免 LLM 的拒绝回应

Learn to Disguise: Avoid Refusal Responses in LLM's Defense via a Multi-agent Attacker-Disguiser Game

Qianqiao Xu, Zhiliang Tian, Hongyan Wu, Zhen Huang, Yiping Song...

TL;DR通过多智能体进攻 - 伪装博弈方法弱化大模型的防御机制，使其能够安全回应攻击者并隐藏防御意图。

Abstract

With the enhanced performance of large models on natural language processing tasks, potential moral and ethical issues of large models ari

large models moral and ethical issues malicious attackers defense mechanism multi-agent game approach

发现论文，激发创造

AutoDefense: 多代理 LLM 防御封顶攻击

通过大规模的实验，我们验证了 AutoDefense 对改进对抗越狱攻击的鲁棒性具有有效性，并且能够在正常用户请求时保持性能。

Mar, 2024

通过伪装和重构在少量查询中解封大型语言模型的方法

通过识别安全微调中的偏差漏洞并设计一种称为 DRA（伪装和重构攻击）的黑盒越狱方法，我们在 LLMs 安全方面开创了理论基础。我们评估了 DRA 在各种开源和闭源模型上的效果，并展示了最先进的越狱成功率和攻击效率，特别是在 LLM 聊天机器人 GPT-4 上，DRA 拥有 90％的攻击成功率。

Feb, 2024

大型语言模型的越狱攻击与防御：综述

通过提出全面详细的破防攻击和防御方法分类体系，本研究旨在启发未来的研究和实际应用，增强对大语言模型在对抗性攻击中的安全性保障，为发展更安全的大语言模型奠定基础。

Jul, 2024

抑制拒绝：通过破解抑制性拒绝来破解 LLM

利用 DSN 攻击对大型语言模型进行评估，通过集成评估方法有效地解决了常规评估方法中存在的限制问题。

Apr, 2024

安全” 人工智能相应中的信息泄露导致虚假的安全感

大型语言模型存在越狱的漏洞，目前的防御机制不足以确保模型的安全性，我们引入信息理论威胁模型并提出了一种防御机制，以确保模型的安全性，并揭示了安全 - 效用的权衡关系。

Jul, 2024

大型语言模型哨兵：通过 LLM 代理推进对抗鲁棒性

我们引入了一种名为 LLAMOS 的新型防御技术，通过净化输入到目标大型语言模型之前的对抗文本示例，以增强大型语言模型的对抗鲁棒性。我们的方法包括两个主要组成部分：a) 代理指示，可以模拟新的代理进行对抗防御，通过最小限度地更改字符来保持句子的原始含义，并防御攻击；b) 防御指导，提供修改干净或对抗性示例以确保有效防御和目标大型语言模型准确输出的策略。通过在开源和闭源大型语言模型上进行广泛实验，我们的方法可以有效抵御对抗性攻击，从而提高对抗鲁棒性。

May, 2024

Imposter.AI：面向对齐大型语言模型的带有隐藏意图的对抗攻击

本研究揭示了一种利用人类对话策略从大型语言模型中提取有害信息的攻击机制，并通过实验证明了该方法优于传统攻击方法，引发了如何辨别对话中的恶意意图的重要问题。

Jul, 2024

LLM 自卫：通过自我检验，LLM 知道自己被欺骗

通过使用语言模型验证内容，我们提出了一种简单的方法来防御对抗性攻击，从而使大型语言模型过滤其自己的回应，即使模型未经人类价值重新调整，也可以避免为用户呈现有害内容。

Aug, 2023

LLM 越狱攻击与防御技术 -- 综合研究

该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进一步研究。

Feb, 2024

对抗调整：为 LLMs 防御越狱攻击

通过优化包含对抗性提示及其安全响应的数据集，我们提出了一个两阶段的对抗调整框架，用于增强大型语言模型在防御能力方面的广义性，实验证明了我们方法的优越性，并展示了它作为可传输防御机制的潜力。

Jun, 2024