DART: 深度对抗自动红队针对LLM安全

Jul, 2024

DART: 深度对抗自动红队针对LLM安全

DART: Deep Adversarial Automated Red Teaming for LLM Safety

Bojian Jiang, Yi Jing, Tianhao Shen, Qing Yang, Deyi Xiong

TL;DR使用深度对抗自动化红队技术（DART）框架，在目标大型语言模型（LLM）的动态演进过程中，通过红色LLM自动生成对抗性提示，监控全局攻击多样性，并通过主动学习数据选择机制来提高目标LLM的安全性，从而显著降低了目标LLM的安全风险。

Abstract

manual red teaming is a commonly-used method to identify vulnerabilities in large language models (LLMs), which, is costly and unscalable. In contrast, automated red teaming uses a Red LLM to automatically genera

发现论文，激发创造

ASSERT：用于评估大型语言模型鲁棒性的自动化安全场景红队测试

在将大型语言模型整合到社会中时，对一套提示的鲁棒性越来越重要，以确保在高差异环境中保持可靠性。本文提出了ASSERT（自动化安全场景红队演练），包括三种方法：语义对齐增强、目标引导和对抗性知识注入。为了进行鲁棒安全评估，我们将这些方法应用于AI安全关键领域，以算法生成一套涵盖多样的鲁棒性设置的测试提示。我们将提示分为四个安全领域，以对领域如何影响模型性能进行精细分析。尽管现有最先进模型具有专用的安全措施，但我们发现在语义相关场景中，绝对分类准确率存在高达11%的统计学显著性差异，零样本对抗设置中的错误率高达19%的绝对误差，给用户的身体安全带来了担忧。

Oct, 2023

大型语言模型的红队和防御攻击指令生成

通过综合手动和自动方法生成攻击提示的综合方法，提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示，并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性；在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性，并发布了一系列攻击提示数据集（SAP）以便更多大型语言模型的安全评估和增强。

Oct, 2023

语言模型不对齐：参数化红队行动揭示隐藏的伤害和偏见

通过参数化红队技术与非对齐性使得Large Language Models (LLMs)的安全性得到破坏，揭示模型中存在的潜在有害信息和偏见。

Oct, 2023

MART：利用多轮自动红队测试提高LLM的安全性

提出了一种名为MART（Multi-round Automatic Red-Teaming）的自动多轮红队方法，通过自动对抗性提示编写和安全响应生成，显著提高了红队的可扩展性和目标大型语言模型的安全性。

Nov, 2023

HarmBench：自动红队与稳健拒绝的标准化评估框架

自动红队测试对于发现和减轻与大型语言模型（LLMs）恶意使用相关的风险具有重要意义，然而该领域缺乏一个标准化评估框架来严格评估新方法。为解决这个问题，我们引入了HarmBench，一个用于自动化红队测试的标准化评估框架。使用HarmBench，我们对18种红队测试方法和33种目标LLMs和防御进行了大规模比较，得出了新的见解。我们还引入了一种高效的对抗训练方法，极大地增强了LLMs对各种攻击的鲁棒性，展示了HarmBench如何实现攻击和防御的共同发展。我们在该https URL上开源了HarmBench。

Feb, 2024

学习大型语言模型上多样化的攻击方法，用于鲁棒性红队和安全优化

使用GFlowNet fine-tuning和二次平滑阶段对攻击者模型进行训练，生成多样且有效的攻击触发词，攻击方法对多种目标大语言模型有效，且通过基于强化学习的红队方法生成的红队训练触发词进行模型安全调优可有效防护。

May, 2024

大规模野外合作：从野外越狱到（对抗性地）更安全的语言模型

引入了WildTeaming框架，该框架通过挖掘用户和聊天机器人的互动来发现新型越狱策略，从而实现对越狱的系统化探索，揭示了先前工作所没有发现的对于最新的LLMs的漏洞，导致比最先进的越狱方法多达4.6倍更多样化和成功的对抗攻击。还提出了WildJailbreak，一个大规模的开源合成安全数据集，通过对现有安全资源的质量和规模进行升级，使我们能够研究数据的扩展效应以及数据属性和模型能力在安全训练过程中的相互作用，从而实现模型的平衡安全行为。

Jun, 2024

紫色团队模型与对抗性防御培训

通过紫色团队与对抗性防御训练（PAD）的引入，以新颖的方式结合红队（攻击）和蓝队（安全训练）技术，我们展示了一种用于保护LLMs的流程，可以主动暴露目标LLM的漏洞并及时适应新兴的安全风险。

Jul, 2024

自我进化对抗安全优化的大型语言模型

本研究解决了大型语言模型（LLMs）在安全性和防止有害输出方面的挑战，提出了自我进化对抗安全（SEAS）优化框架。通过模型自生成的数据，该框架通过初始化、攻击和对抗优化三个迭代阶段来增强模型的安全性，显著减少对人工测试的依赖，并有效提高LLMs的安全能力。研究表明，经过三次迭代，目标模型的安全性与GPT-4相当，红队模型的攻击成功率显著提升。

Aug, 2024

h4rm3l：可组合越狱攻击的动态基准评估大型语言模型的安全性

本研究针对大型语言模型（LLMs）在生成有害内容方面的安全性评估缺乏足够基准的问题，提出了一种新颖的动态基准h4rm3l，用于可组合越狱攻击。研究显示，该方法生成的2656种越狱攻击在有效性上超过90%，为理解LLMs的安全局限性和发展强大防御提供了支持。

Aug, 2024