ASTPrompter：弱监督自动语言模型红队技术用于识别可能有害提示

Jul, 2024

ASTPrompter：弱监督自动语言模型红队技术用于识别可能有害提示

ASTPrompter: Weakly Supervised Automated Language Model Red-Teaming to Identify Likely Toxic Prompts

Amelia F. Hardy, Houjun Liu, Bernard Lange, Mykel J. Kochenderfer

TL;DR利用强化学习方法，我们提出了一种大型语言模型基于红队思维的方案，旨在发现既能触发被冻结的防御模型产生毒性文本，又能得到低困惑度的提示文本。通过在线弱监督的身份偏好优化(IPO)算法，解决这个问题，并展示了生成毒性文本的有效策略及其对防御模型正常使用的影响。

Abstract

Typical schemes for automated red-teaming large language models (LLMs) focus on discovering prompts that trigger a frozen language model (the defender) to generate →

发现论文，激发创造

使用语言模型对语言模型进行红队测试

使用红队技术，在基于语言模型的聊天机器人中生成测试用例以检测有害行为，并训练分类器检测模型产生的攻击性内容，从而发现数万条攻击性回复。这是一种在影响用户之前找到和修复各种不良行为的工具。

Feb, 2022

将红队化的语言模型减少危害：方法、扩展行为与经验教训

本文介绍了对语言模型进行红队测试的早期探索，尝试发现、测量并减少它们可能产生的潜在危害输出。在实验中发现，随着模型规模的扩大，使用人类反馈进行强化学习的模型难以被红队攻击，并提供数据集和方法说明以便进行共同探讨。

Aug, 2022

从零开始进行红队攻防测试语言模型的探索、建立和利用

本研究基于高水平、抽象的不良行为规范，通过三步，即探索模型的行为、建立不良行为的衡量标准、利用该标准和既定的红队方法来利用模型缺陷，从而针对 GPT-2 和 GPT-3 模型进行红队演练，发现可激发有毒或不诚实言论的提示，同时构建并发布包含 20,000 条声明的 CommonClaim 数据集。

Jun, 2023

大型语言模型的红队和防御攻击指令生成

通过综合手动和自动方法生成攻击提示的综合方法，提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示，并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性；在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性，并发布了一系列攻击提示数据集（SAP）以便更多大型语言模型的安全评估和增强。

Oct, 2023

语言模型不对齐：参数化红队行动揭示隐藏的伤害和偏见

通过参数化红队技术与非对齐性使得Large Language Models (LLMs)的安全性得到破坏，揭示模型中存在的潜在有害信息和偏见。

Oct, 2023

基于梯度的语言模型红队测试

基于梯度的红队技术（GBRT）是一种自动生成多样的提示，很可能导致语言模型输出不安全回应的红队技术方法。通过将LM回应与安全分类器进行评分并通过冻结的安全分类器和LM进行反向传播来更新提示，我们训练了GBRT。为了提高输入提示的连贯性，我们引入了两个变体，即添加现实损失和微调预训练模型以生成提示，而不是直接学习提示。实验结果表明，与强化学习为基础的红队技术方法相比，GBRT在找到触发语言模型生成不安全回应的提示方面更为有效，即使该LM已被微调以生成更安全的输出。

Jan, 2024

大型语言模型的好奇心驱动的红队扮演

通过好奇心驱动的红队（CRT），我们提出了一种自动生成测试用例的方法，以增加生成的测试用例的覆盖范围，并成功地从经过重度优化以避免有害结果的LLaMA2模型中引发有害回应。

Feb, 2024

针对阿喀琉斯之踵的调查：生成模型的红队演练

生成模型和红队的攻击策略研究与语言模型的功能能力密切相关，调查还涉及到多模式攻击等新领域，希望这个调查能够为研究领域提供系统的视角并开启新的研究领域。

Mar, 2024

微小的改进引发韧性：朝着高效的前缀模型抵御LLM红队行动

通过介绍基于LLM的哨兵模型，该论文提出一种即插即用的前缀模块，通过添加少量的(<30)令牌有效地减少目标LLM输出中的有毒内容，克服参数效率和模型可访问性的限制。我们采用交错训练方案，使用近端策略优化(PPO)来动态优化红队和哨兵模型，并结合通过多智能体集中批判者启发的值头共享机制来管理代理之间的复杂相互作用。我们在文本到文本和文本到图像的广泛实验中证明了我们方法的有效性，即使处理像Llama-2、GPT-3.5和Stable-Diffusion这样的大型模型也能降低有毒输出，突显了我们框架在提升各种应用程序的安全性和稳健性方面的潜力。

May, 2024

学习大型语言模型上多样化的攻击方法，用于鲁棒性红队和安全优化

使用GFlowNet fine-tuning和二次平滑阶段对攻击者模型进行训练，生成多样且有效的攻击触发词，攻击方法对多种目标大语言模型有效，且通过基于强化学习的红队方法生成的红队训练触发词进行模型安全调优可有效防护。

May, 2024