召唤恶魔并束缚它：野外 LLM 红队行动的一个基于实证的理论

Nov, 2023

召唤恶魔并束缚它：野外 LLM 红队行动的一个基于实证的理论

Summon a Demon and Bind it: A Grounded Theory of LLM Red Teaming in the Wild

Nanna Inie, Jonathan Stray, Leon Derczynski

TL;DR大规模语言模型攻击的动机、策略和技术以及社区的重要角色。

Abstract

Engaging in the deliberate generation of abnormal outputs from large language models (LLMs) by attacking them is a novel human activity. This paper presents a thorough exposition of how and why people perform such attacks. Using a formal →

large language models attacks qualitative methodology motivations llm red teaming

发现论文，激发创造

从零开始进行红队攻防测试语言模型的探索、建立和利用

本研究基于高水平、抽象的不良行为规范，通过三步，即探索模型的行为、建立不良行为的衡量标准、利用该标准和既定的红队方法来利用模型缺陷，从而针对 GPT-2 和 GPT-3 模型进行红队演练，发现可激发有毒或不诚实言论的提示，同时构建并发布包含 20,000 条声明的 CommonClaim 数据集。

Jun, 2023

使用语言模型对语言模型进行红队测试

使用红队技术，在基于语言模型的聊天机器人中生成测试用例以检测有害行为，并训练分类器检测模型产生的攻击性内容，从而发现数万条攻击性回复。这是一种在影响用户之前找到和修复各种不良行为的工具。

Feb, 2022

大型语言模型的红队和防御攻击指令生成

通过综合手动和自动方法生成攻击提示的综合方法，提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示，并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性；在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性，并发布了一系列攻击提示数据集（SAP）以便更多大型语言模型的安全评估和增强。

Oct, 2023

将红队化的语言模型减少危害：方法、扩展行为与经验教训

本文介绍了对语言模型进行红队测试的早期探索，尝试发现、测量并减少它们可能产生的潜在危害输出。在实验中发现，随着模型规模的扩大，使用人类反馈进行强化学习的模型难以被红队攻击，并提供数据集和方法说明以便进行共同探讨。

Aug, 2022

大型语言模型的好奇心驱动的红队扮演

通过好奇心驱动的红队（CRT），我们提出了一种自动生成测试用例的方法，以增加生成的测试用例的覆盖范围，并成功地从经过重度优化以避免有害结果的 LLaMA2 模型中引发有害回应。

Feb, 2024

使用语言模型对抗语言模型检测器

本文研究了如何攻击已有的机器文字生成检测算法，并验证了所有被测试的检测器的鲁棒性。结果表明，开发更加鲁棒的机器文字检测系统有着迫切的需求。

May, 2023

红队游戏：红队语言模型的博弈理论框架

用于量化 LLMs 的多样化攻击策略和优化方法，并通过构建红队和蓝队语言模型之间的对抗游戏理论基础，提出一种无需人工标注的红队技术，有效提升了大型语言模型的安全性。

Sep, 2023

迫使语言模型（LLMs）做和透露（几乎）任何事情

广义的对大型语言模型进行的对抗性攻击研究了攻击面和攻击目标，并对具体例子进行了分类和系统化，如误导、模型控制、服务拒绝或数据提取，并分析了这些攻击的实验结果。

Feb, 2024

LLM 越狱攻击与防御技术 -- 综合研究

该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进一步研究。

Feb, 2024

大规模语言模型的红队攻防：解决数学任务中的幻觉问题

评估不同提示技术对解答质量的影响，通过红组合作将 LLMs 在基础计算和代数任务上进行测试。结果发现，尽管结构化推理和提供解题示例可以减缓解答质量的恶化，但 gpt-3.5-turbo 和 gpt-4 模型在基础计算和推理任务上表现不佳，即使在红组合作的情况下。

Dec, 2023