基于贝叶斯优化的高效黑盒红队测试

ACLMay, 2023

基于贝叶斯优化的高效黑盒红队测试

Query-Efficient Black-Box Red Teaming via Bayesian Optimization

Deokjae Lee, JunYeong Lee, Jung-Woo Ha, Jin-Hwa Kim, Sang-Woo Lee...

TL;DR提出了一种基于贝叶斯优化的黑盒反向渗透方法，利用预定义用户输入池和过去的评估迭代地识别多样的正向测试用例，以在有限的查询预算下找到更多的多样的正向测试用例。

Abstract

The deployment of large-scale generative models is often restricted by their potential risk of causing harm to users in unpredictable ways. We focus on the problem of black-box red teaming, where a red team gener

generative models black-box red teaming bayesian optimization positive test cases limited query budget

发现论文，激发创造

基于梯度的语言模型红队测试

基于梯度的红队技术（GBRT）是一种自动生成多样的提示，很可能导致语言模型输出不安全回应的红队技术方法。通过将 LM 回应与安全分类器进行评分并通过冻结的安全分类器和 LM 进行反向传播来更新提示，我们训练了 GBRT。为了提高输入提示的连贯性，我们引入了两个变体，即添加现实损失和微调预训练模型以生成提示，而不是直接学习提示。实验结果表明，与强化学习为基础的红队技术方法相比，GBRT 在找到触发语言模型生成不安全回应的提示方面更为有效，即使该 LM 已被微调以生成更安全的输出。

Jan, 2024

大型语言模型的好奇心驱动的红队扮演

通过好奇心驱动的红队（CRT），我们提出了一种自动生成测试用例的方法，以增加生成的测试用例的覆盖范围，并成功地从经过重度优化以避免有害结果的 LLaMA2 模型中引发有害回应。

Feb, 2024

走向多模态多语种翻译的红色团队

自然语言处理性能评估变得越来越复杂，本文首次研究了基于人工方法的团队鉴定在机器翻译中的应用，为理解和改进翻译模型的性能迈出了重要一步。

Jan, 2024

使用语言模型对语言模型进行红队测试

使用红队技术，在基于语言模型的聊天机器人中生成测试用例以检测有害行为，并训练分类器检测模型产生的攻击性内容，从而发现数万条攻击性回复。这是一种在影响用户之前找到和修复各种不良行为的工具。

Feb, 2022

红队游戏：红队语言模型的博弈理论框架

用于量化 LLMs 的多样化攻击策略和优化方法，并通过构建红队和蓝队语言模型之间的对抗游戏理论基础，提出一种无需人工标注的红队技术，有效提升了大型语言模型的安全性。

Sep, 2023

从零开始进行红队攻防测试语言模型的探索、建立和利用

本研究基于高水平、抽象的不良行为规范，通过三步，即探索模型的行为、建立不良行为的衡量标准、利用该标准和既定的红队方法来利用模型缺陷，从而针对 GPT-2 和 GPT-3 模型进行红队演练，发现可激发有毒或不诚实言论的提示，同时构建并发布包含 20,000 条声明的 CommonClaim 数据集。

Jun, 2023

大规模语言模型的红队攻防：解决数学任务中的幻觉问题

评估不同提示技术对解答质量的影响，通过红组合作将 LLMs 在基础计算和代数任务上进行测试。结果发现，尽管结构化推理和提供解题示例可以减缓解答质量的恶化，但 gpt-3.5-turbo 和 gpt-4 模型在基础计算和推理任务上表现不佳，即使在红组合作的情况下。

Dec, 2023

基于贝叶斯优化的黑盒对抗攻击

文章研究黑盒对抗攻击问题，提出了一种基于贝叶斯优化的高效查询算法，使用维度上采样技术优化了对深度学习模型的优化，并取得了比其他算法更优的效果。

Sep, 2019

针对阿喀琉斯之踵的调查：生成模型的红队演练

生成模型和红队的攻击策略研究与语言模型的功能能力密切相关，调查还涉及到多模式攻击等新领域，希望这个调查能够为研究领域提供系统的视角并开启新的研究领域。

Mar, 2024

HarmBench：自动红队与稳健拒绝的标准化评估框架

自动红队测试对于发现和减轻与大型语言模型（LLMs）恶意使用相关的风险具有重要意义，然而该领域缺乏一个标准化评估框架来严格评估新方法。为解决这个问题，我们引入了 HarmBench，一个用于自动化红队测试的标准化评估框架。使用 HarmBench，我们对 18 种红队测试方法和 33 种目标 LLMs 和防御进行了大规模比较，得出了新的见解。我们还引入了一种高效的对抗训练方法，极大地增强了 LLMs 对各种攻击的鲁棒性，展示了 HarmBench 如何实现攻击和防御的共同发展。我们在该 https URL 上开源了 HarmBench。

Feb, 2024