生成 AI 的红队测试：是银弹还是安全娱乐？

Jan, 2024

生成 AI 的红队测试：是银弹还是安全娱乐？

Red-Teaming for Generative AI: Silver Bullet or Security Theater?

Michael Feffer, Anusha Sinha, Zachary C. Lipton, Hoda Heidari

TL;DR通过对 AI 工业界最近的红队活动案例和相关研究文献的调查，我们发现先前的 AI 红队方法和实践在多个方面存在差异，包括活动目的、评估对象、实施方式和所得出的决策。鉴于我们的发现，我们认为虽然红队可能是一个有价值的广义概念，用于描述一系列旨在改善 Generative AI 模型行为的活动和态度，但宣称红队是解决一切可能风险的万灵药则属于安全戏剧。为了更好地评估生成 AI，我们将我们的建议综合成一个问题库，旨在指导和规范未来的 AI 红队实践。

Abstract

In response to rising concerns surrounding the safety, security, and trustworthiness of generative ai (GenAI) models, practitioners and regulators alike have pointed to ai red-teaming as a key component of their

generative ai ai red-teaming research literature cybersecurity evaluation

发现论文，激发创造

AI 评估与红队行动的安全港湾

对生成式人工智能系统进行独立评估和红队测试对于识别风险至关重要，但主要人工智能公司用于阻止模型滥用的服务条款和执法策略对善意安全评估存在不利因素，因此一些研究人员担心进行此类研究或公开发现将导致账户暂停或法律报复。我们提议重要人工智能开发者承诺提供法律和技术的 “安全港”，为公共利益的安全研究提供保障，免于账户暂停或法律报复的威胁。我们相信这些承诺是朝着更具包容性和顺畅的社区合作努力，解决生成式人工智能的风险问题所需的必要步骤。

Mar, 2024

针对阿喀琉斯之踵的调查：生成模型的红队演练

生成模型和红队的攻击策略研究与语言模型的功能能力密切相关，调查还涉及到多模式攻击等新领域，希望这个调查能够为研究领域提供系统的视角并开启新的研究领域。

Mar, 2024

保障海上自治系统中人工智能的红队框架

通过使用一种多部分检查表的框架，我们展示了如何高效地评估海上自主系统的人工智能安全，并揭示其中的多个漏洞，从中毒到对抗性补丁攻击。通过系统化的人工智能红队行动，我们可以防止与提高对使命关键人工智能的接受和依赖性相应的严重事件。

Dec, 2023

CTI4AI：基于红队测试 AI 模型的威胁情报生成和分享

本文介绍了 CTI4AI 系统 —— 用于识别和分享人工智能及机器学习特别脆弱性和威胁情报的原型系统。

Aug, 2022

红队游戏：红队语言模型的博弈理论框架

用于量化 LLMs 的多样化攻击策略和优化方法，并通过构建红队和蓝队语言模型之间的对抗游戏理论基础，提出一种无需人工标注的红队技术，有效提升了大型语言模型的安全性。

Sep, 2023

人工智能的承诺与危险 -- 紫队合作为一条平衡的前进之路

人工智能（AI）带来了巨大的好处，但也存在双重用途潜力、偏见和意外行为的风险。本文回顾了不透明且无法控制的 AI 系统的新兴问题，并提出了一个称为紫色团队合作的综合框架，以开发可靠和负责任的 AI。紫色团队合作将对抗性漏洞探测（红队）与安全解决方案（蓝队）相结合，同时优先考虑伦理和社会利益。它从 AI 安全研究中出现，通过设计来主动管理风险。本文追溯了红队、蓝队和紫色团队向紫色团队合作的演变，并讨论了应用紫色技术来解决生物技术中 AI 的生物安全风险。额外的部分回顾了跨法律、伦理、网络安全、宏观战略和行业最佳实践的关键观点，这些对通过技术和社会综合考虑使 AI 负责任的操作至关重要。紫色团队合作既提供哲学又提供方法，引导 AI 的发展方向朝向社会福祉。在有良心和智慧的指导下，人工智能的超凡能力可以丰富人类。但是，如果没有足够的预防措施，风险可能是灾难性的。紫色团队合作旨在为共同福利赋予道德技术的力量。

Aug, 2023

走向多模态多语种翻译的红色团队

自然语言处理性能评估变得越来越复杂，本文首次研究了基于人工方法的团队鉴定在机器翻译中的应用，为理解和改进翻译模型的性能迈出了重要一步。

Jan, 2024

超越杂草的种子：绿色团队协作生成人工智能以实现益处使用

本文介绍了一种称为 Green Teaming 的设计方法，它可以绕过 GM 内容过滤器，设计有益于人的用例，用三种例子显示了它的实际应用和批判模式，并讨论了它如何挑战和颠覆现有的生成 AI 中的有害内容和价值理解。

May, 2023

AART：多元数据生成的 AI 辅助红队技术用于新 LLM 技术应用

通过自动生成敌对评估数据集，提供了一种新的方法，用于测试大型语言模型在新的下游应用中生成结果的安全性，为了减少人工工作量并能够更早地集成敌对测试，使用 AI 辅助的可重复和可定制的数据生成和增强流程，生成具有高内容特征多样性的评估数据集，结果显示与一些最先进的工具相比，在概念覆盖和数据质量方面具有很大的潜力。

Nov, 2023

ART：自动红队针对文本到图像模型保护正常用户

大规模的预训练生成模型在生成创意内容方面表现出色，但是存在安全风险，为了保护用户的权益和安全，我们提出了一种名为 ART 的新型自动红队框架，旨在通过结合视觉语言模型和大型语言模型，有效地识别文本转图像模型的漏洞，并通过实验证明了这种方法的有效性和适应性，以及 ART 引入的三个大规模红队数据集用于研究与文本转图像模型相关的安全风险。

May, 2024