MART：利用多轮自动红队测试提高 LLM 的安全性

Nov, 2023

MART：利用多轮自动红队测试提高 LLM 的安全性

MART: Improving LLM Safety with Multi-round Automatic Red-Teaming

Suyu Ge, Chunting Zhou, Rui Hou, Madian Khabsa, Yi-Chia Wang...

TL;DR提出了一种名为 MART（Multi-round Automatic Red-Teaming）的自动多轮红队方法，通过自动对抗性提示编写和安全响应生成，显著提高了红队的可扩展性和目标大型语言模型的安全性。

Abstract

red-teaming is a common practice for mitigating unsafe behaviors in Large Language Models (LLMs), which involves thoroughly assessing LLMs to identify potential flaws and addressing them with responsible and accurate responses. While effective, manual →

red-teaming large language models automatic adversarial prompt writing safe response generation safety fine-tuning

发现论文，激发创造

学习大型语言模型上多样化的攻击方法，用于鲁棒性红队和安全优化

使用 GFlowNet fine-tuning 和二次平滑阶段对攻击者模型进行训练，生成多样且有效的攻击触发词，攻击方法对多种目标大语言模型有效，且通过基于强化学习的红队方法生成的红队训练触发词进行模型安全调优可有效防护。

May, 2024

AART：多元数据生成的 AI 辅助红队技术用于新 LLM 技术应用

通过自动生成敌对评估数据集，提供了一种新的方法，用于测试大型语言模型在新的下游应用中生成结果的安全性，为了减少人工工作量并能够更早地集成敌对测试，使用 AI 辅助的可重复和可定制的数据生成和增强流程，生成具有高内容特征多样性的评估数据集，结果显示与一些最先进的工具相比，在概念覆盖和数据质量方面具有很大的潜力。

Nov, 2023

大型语言模型的红队和防御攻击指令生成

通过综合手动和自动方法生成攻击提示的综合方法，提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示，并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性；在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性，并发布了一系列攻击提示数据集（SAP）以便更多大型语言模型的安全评估和增强。

Oct, 2023

基于梯度的语言模型红队测试

基于梯度的红队技术（GBRT）是一种自动生成多样的提示，很可能导致语言模型输出不安全回应的红队技术方法。通过将 LM 回应与安全分类器进行评分并通过冻结的安全分类器和 LM 进行反向传播来更新提示，我们训练了 GBRT。为了提高输入提示的连贯性，我们引入了两个变体，即添加现实损失和微调预训练模型以生成提示，而不是直接学习提示。实验结果表明，与强化学习为基础的红队技术方法相比，GBRT 在找到触发语言模型生成不安全回应的提示方面更为有效，即使该 LM 已被微调以生成更安全的输出。

Jan, 2024

通过话语链安全对齐红队大型语言模型

基于大型语言模型的安全性评估与对抗、生成有害回应的问题以及安全对齐的方法和模型研究。

Aug, 2023

使用语言模型对语言模型进行红队测试

使用红队技术，在基于语言模型的聊天机器人中生成测试用例以检测有害行为，并训练分类器检测模型产生的攻击性内容，从而发现数万条攻击性回复。这是一种在影响用户之前找到和修复各种不良行为的工具。

Feb, 2022

警示：通过红队测试全面评估大型语言模型的安全性的综合基准

应用 ALERT 基准评估安全性，通过对大规模语言模型进行对抗测试，识别漏洞，改进并提高语言模型的整体安全性。

Apr, 2024

语言模型不对齐：参数化红队行动揭示隐藏的伤害和偏见

通过参数化红队技术与非对齐性使得 Large Language Models (LLMs) 的安全性得到破坏，揭示模型中存在的潜在有害信息和偏见。

Oct, 2023

ART：自动红队针对文本到图像模型保护正常用户

大规模的预训练生成模型在生成创意内容方面表现出色，但是存在安全风险，为了保护用户的权益和安全，我们提出了一种名为 ART 的新型自动红队框架，旨在通过结合视觉语言模型和大型语言模型，有效地识别文本转图像模型的漏洞，并通过实验证明了这种方法的有效性和适应性，以及 ART 引入的三个大规模红队数据集用于研究与文本转图像模型相关的安全风险。

May, 2024

大型语言模型的好奇心驱动的红队扮演

通过好奇心驱动的红队（CRT），我们提出了一种自动生成测试用例的方法，以增加生成的测试用例的覆盖范围，并成功地从经过重度优化以避免有害结果的 LLaMA2 模型中引发有害回应。

Feb, 2024