不以为意：从语言模型中引发冒犯

Oct, 2023

不以为意：从语言模型中引发冒犯

No Offense Taken: Eliciting Offensiveness from Language Models

Anugya Srivastava, Rahul Ahuja, Rohith Mukku

TL;DR通过红队测试针对语言模型的自动化测试用例生成方法，实现语言模型的可靠部署，检测其鲁棒性和失败模式。

Abstract

This work was completed in May 2022. For safe and reliable deployment of language models in the real world, testing needs to be robust. This robustness can be characterized by the difficulty and diversity of the

language models robustness test case generation red teaming failure modes

发现论文，激发创造

使用语言模型对语言模型进行红队测试

使用红队技术，在基于语言模型的聊天机器人中生成测试用例以检测有害行为，并训练分类器检测模型产生的攻击性内容，从而发现数万条攻击性回复。这是一种在影响用户之前找到和修复各种不良行为的工具。

Feb, 2022

将红队化的语言模型减少危害：方法、扩展行为与经验教训

本文介绍了对语言模型进行红队测试的早期探索，尝试发现、测量并减少它们可能产生的潜在危害输出。在实验中发现，随着模型规模的扩大，使用人类反馈进行强化学习的模型难以被红队攻击，并提供数据集和方法说明以便进行共同探讨。

Aug, 2022

大型语言模型的好奇心驱动的红队扮演

通过好奇心驱动的红队（CRT），我们提出了一种自动生成测试用例的方法，以增加生成的测试用例的覆盖范围，并成功地从经过重度优化以避免有害结果的 LLaMA2 模型中引发有害回应。

Feb, 2024

从零开始进行红队攻防测试语言模型的探索、建立和利用

本研究基于高水平、抽象的不良行为规范，通过三步，即探索模型的行为、建立不良行为的衡量标准、利用该标准和既定的红队方法来利用模型缺陷，从而针对 GPT-2 和 GPT-3 模型进行红队演练，发现可激发有毒或不诚实言论的提示，同时构建并发布包含 20,000 条声明的 CommonClaim 数据集。

Jun, 2023

大型语言模型中的性别偏见煽动与缓解之学习

自动检测大型语言模型（如 ChatGPT 和 GPT-4）潜在性别偏见的研究，提出了一种自动生成测试用例的方法，并通过这些测试用例来减轻模型偏见，从而实现更公正的回复。

Oct, 2023

大型语言模型的红队和防御攻击指令生成

通过综合手动和自动方法生成攻击提示的综合方法，提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示，并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性；在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性，并发布了一系列攻击提示数据集（SAP）以便更多大型语言模型的安全评估和增强。

Oct, 2023

警示：通过红队测试全面评估大型语言模型的安全性的综合基准

应用 ALERT 基准评估安全性，通过对大规模语言模型进行对抗测试，识别漏洞，改进并提高语言模型的整体安全性。

Apr, 2024

使用语言模型对抗语言模型检测器

本文研究了如何攻击已有的机器文字生成检测算法，并验证了所有被测试的检测器的鲁棒性。结果表明，开发更加鲁棒的机器文字检测系统有着迫切的需求。

May, 2023

学习大型语言模型上多样化的攻击方法，用于鲁棒性红队和安全优化

使用 GFlowNet fine-tuning 和二次平滑阶段对攻击者模型进行训练，生成多样且有效的攻击触发词，攻击方法对多种目标大语言模型有效，且通过基于强化学习的红队方法生成的红队训练触发词进行模型安全调优可有效防护。

May, 2024

ASSERT：用于评估大型语言模型鲁棒性的自动化安全场景红队测试

在将大型语言模型整合到社会中时，对一套提示的鲁棒性越来越重要，以确保在高差异环境中保持可靠性。本文提出了 ASSERT（自动化安全场景红队演练），包括三种方法：语义对齐增强、目标引导和对抗性知识注入。为了进行鲁棒安全评估，我们将这些方法应用于 AI 安全关键领域，以算法生成一套涵盖多样的鲁棒性设置的测试提示。我们将提示分为四个安全领域，以对领域如何影响模型性能进行精细分析。尽管现有最先进模型具有专用的安全措施，但我们发现在语义相关场景中，绝对分类准确率存在高达 11% 的统计学显著性差异，零样本对抗设置中的错误率高达 19% 的绝对误差，给用户的身体安全带来了担忧。

Oct, 2023