JAB: 联合对抗提示和信念增强

Nov, 2023

JAB: Joint Adversarial Prompting and Belief Augmentation

Ninareh Mehrabi, Palash Goyal, Anil Ramakrishna, Jwala Dhamala, Shalini Ghosh...

TL;DR通过对黑盒目标模型进行敌对激励并通过迭代反馈循环使用信念增强，我们引入了一个联合框架来同时探测和改进语言模型的安全性和鲁棒性。通过使用自动红队测试方法探测目标模型，以及使用信念增强器生成指令以提高目标模型对敌对探测的鲁棒性，该框架实现了对目标模型的鲁棒性的提升。在实验中，我们证明了这样一个框架可以减少动态交互和静态基准数据集评估模型的有毒内容生成。

Abstract

With the recent surge of language models in different applications, attention to safety and robustness of these models has gained signific

language models safety robustness adversarial prompting toxic content generation

发现论文，激发创造

一种基于提示的对抗性样本生成和鲁棒性增强方法

本研究提出了一种基于 Prompt 的新型对抗攻击和提高自然语言处理模型的鲁棒性的技术，包括恶意 Prompt 构建、对抗样本生成和 Prompt-based 对抗训练方法，并实验验证了攻击成功率的高效性和鲁棒性提高方法的有效性。

Mar, 2022

多代理辩论对抗对抗攻击

通过多代理辩论和嵌入式聚类，我们研究了现代语言模型在对抗性攻击和多代理环境下的表现，并发现多代理辩论可以减少模型的有害性，并改善对不同类型攻击主题的抵抗能力。

Jan, 2024

大型语言模型的强大安全分类器：对抗性提示屏蔽

大型语言模型的安全性是一个重要问题，本研究提出了 Adversarial Prompt Shield（APS）这个轻量级模型，能够有效检测和抵御对抗抓取；同时，我们还引入了自动生成对抗训练数据集的新策略，命名为 Bot Adversarial Noisy Dialogue（BAND）数据集，以提高安全分类器的鲁棒性。经过评估，我们的分类器成功率提高了 60%，为下一代更可靠和韧性更强的对话代理铺平了道路。

Oct, 2023

AdvPrompter: LLMs 的快速自适应敌对提示

通过使用 AdvPrompter 方法，本文提出了一种用于生成人类可读的敌对提示的新方法，生成的提示可以在几秒钟内完成，比现有的基于优化的方法快 800 倍，该方法使得大型语言模型（LLMs）更加抵抗破解攻击而实现高性能。

Apr, 2024

从安全基准筛选敌对提示：关于敌对咬地机挑战的报告

文本条件的图像生成模型在图像质量和对齐性方面取得了惊人的结果，然而它们依赖于从网络随机获取的数量庞大的数据集，因此也会生成不安全的内容。作为对 Adversarial Nibbler 挑战的贡献，我们从现有的安全基准中提取了超过 1,000 个潜在对抗性输入，通过对收集到的提示和相应的图像进行分析，揭示了输入过滤器的脆弱性并进一步深入研究了当前生成图像模型中的系统安全问题。

Sep, 2023

基于查询的对抗性提示生成

通过使用具有 API 访问的远程语言模型构建具有更高概率发出有害字符串的对抗性示例，我们改进了之前的工作，并验证了我们的攻击在 GPT-3.5 和 OpenAI 的安全分类器上的有效性。

Feb, 2024

ASSERT：用于评估大型语言模型鲁棒性的自动化安全场景红队测试

在将大型语言模型整合到社会中时，对一套提示的鲁棒性越来越重要，以确保在高差异环境中保持可靠性。本文提出了 ASSERT（自动化安全场景红队演练），包括三种方法：语义对齐增强、目标引导和对抗性知识注入。为了进行鲁棒安全评估，我们将这些方法应用于 AI 安全关键领域，以算法生成一套涵盖多样的鲁棒性设置的测试提示。我们将提示分为四个安全领域，以对领域如何影响模型性能进行精细分析。尽管现有最先进模型具有专用的安全措施，但我们发现在语义相关场景中，绝对分类准确率存在高达 11% 的统计学显著性差异，零样本对抗设置中的错误率高达 19% 的绝对误差，给用户的身体安全带来了担忧。

Oct, 2023

针对对抗引导的 LLM 安全性认证

我们提出了第一个具有可验证安全保证的消除 - 检查（erase-and-check）框架，以抵御恶意提示。我们通过逐个擦除 token 并使用安全过滤器检查得到的子序列，将输入提示标记为有害，如果安全过滤器检测到任何子序列或者输入提示本身存在有害的部分。我们的技术能够针对三种攻击模式进行防御，并且在保证处理安全提示的性能的同时，显著提高了在有害提示上的安全保证指标。

Sep, 2023

勤奋的鲍勃通过及时对抗调整反击越狱

我们提出了一种名为 Prompt Adversarial Tuning (PAT) 的方法来训练一个防御控制机制，将其作为用户提示的前缀来实施我们的防御策略，该方法在黑盒和白盒设置中表现有效，在几乎不影响操作效率的情况下，将高级攻击的成功率降低到几乎为 0，同时仍然保持对简单问题的良性回答率为 80%。我们的研究在 LLM 安全领域可能为未来的探索开辟新的视角。

Feb, 2024

大型语言模型的红队和防御攻击指令生成

通过综合手动和自动方法生成攻击提示的综合方法，提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示，并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性；在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性，并发布了一系列攻击提示数据集（SAP）以便更多大型语言模型的安全评估和增强。

Oct, 2023