ASSERT：用于评估大型语言模型鲁棒性的自动化安全场景红队测试

Oct, 2023

ASSERT：用于评估大型语言模型鲁棒性的自动化安全场景红队测试

ASSERT: Automated Safety Scenario Red Teaming for Evaluating the Robustness of Large Language Models

Alex Mei, Sharon Levy, William Yang Wang

TL;DR在将大型语言模型整合到社会中时，对一套提示的鲁棒性越来越重要，以确保在高差异环境中保持可靠性。本文提出了 ASSERT（自动化安全场景红队演练），包括三种方法：语义对齐增强、目标引导和对抗性知识注入。为了进行鲁棒安全评估，我们将这些方法应用于 AI 安全关键领域，以算法生成一套涵盖多样的鲁棒性设置的测试提示。我们将提示分为四个安全领域，以对领域如何影响模型性能进行精细分析。尽管现有最先进模型具有专用的安全措施，但我们发现在语义相关场景中，绝对分类准确率存在高达 11% 的统计学显著性差异，零样本对抗设置中的错误率高达 19% 的绝对误差，给用户的身体安全带来了担忧。

Abstract

As large language models are integrated into society, robustness toward a suite of prompts is increasingly important to maintain reliability in a high-variance environment.→

large language models robustness safety evaluation prompt suite ai safety

发现论文，激发创造

警示：通过红队测试全面评估大型语言模型的安全性的综合基准

应用 ALERT 基准评估安全性，通过对大规模语言模型进行对抗测试，识别漏洞，改进并提高语言模型的整体安全性。

Apr, 2024

通过话语链安全对齐红队大型语言模型

基于大型语言模型的安全性评估与对抗、生成有害回应的问题以及安全对齐的方法和模型研究。

Aug, 2023

ART：自动红队针对文本到图像模型保护正常用户

大规模的预训练生成模型在生成创意内容方面表现出色，但是存在安全风险，为了保护用户的权益和安全，我们提出了一种名为 ART 的新型自动红队框架，旨在通过结合视觉语言模型和大型语言模型，有效地识别文本转图像模型的漏洞，并通过实验证明了这种方法的有效性和适应性，以及 ART 引入的三个大规模红队数据集用于研究与文本转图像模型相关的安全风险。

May, 2024

MART：利用多轮自动红队测试提高 LLM 的安全性

提出了一种名为 MART（Multi-round Automatic Red-Teaming）的自动多轮红队方法，通过自动对抗性提示编写和安全响应生成，显著提高了红队的可扩展性和目标大型语言模型的安全性。

Nov, 2023

大型语言模型的红队和防御攻击指令生成

通过综合手动和自动方法生成攻击提示的综合方法，提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示，并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性；在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性，并发布了一系列攻击提示数据集（SAP）以便更多大型语言模型的安全评估和增强。

Oct, 2023

语言模型不对齐：参数化红队行动揭示隐藏的伤害和偏见

通过参数化红队技术与非对齐性使得 Large Language Models (LLMs) 的安全性得到破坏，揭示模型中存在的潜在有害信息和偏见。

Oct, 2023

使用语言模型对语言模型进行红队测试

使用红队技术，在基于语言模型的聊天机器人中生成测试用例以检测有害行为，并训练分类器检测模型产生的攻击性内容，从而发现数万条攻击性回复。这是一种在影响用户之前找到和修复各种不良行为的工具。

Feb, 2022

学习大型语言模型上多样化的攻击方法，用于鲁棒性红队和安全优化

使用 GFlowNet fine-tuning 和二次平滑阶段对攻击者模型进行训练，生成多样且有效的攻击触发词，攻击方法对多种目标大语言模型有效，且通过基于强化学习的红队方法生成的红队训练触发词进行模型安全调优可有效防护。

May, 2024

JAB: 联合对抗提示和信念增强

通过对黑盒目标模型进行敌对激励并通过迭代反馈循环使用信念增强，我们引入了一个联合框架来同时探测和改进语言模型的安全性和鲁棒性。通过使用自动红队测试方法探测目标模型，以及使用信念增强器生成指令以提高目标模型对敌对探测的鲁棒性，该框架实现了对目标模型的鲁棒性的提升。在实验中，我们证明了这样一个框架可以减少动态交互和静态基准数据集评估模型的有毒内容生成。

Nov, 2023

FLIRT: 反馈回路内上下文的红队作战

通过提出一种自动红队框架，我们展示了如何评估给定模型并暴露其对不安全和不适当内容生成的漏洞，并通过上下文学习和不同攻击策略来自动学习对图像生成模型有效多样的对抗提示。我们的实验证明，与基线方法相比，我们提出的策略在暴露 Stable Diffusion（SD）模型的漏洞方面效果明显更好，即使后者已经增强了安全功能。此外，我们还展示了该框架对文本生成模型的红队效果，相较于以前报道的数据，显著提高了生成有害响应的概率。

Aug, 2023