紫色团队模型与对抗性防御培训
大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域,本文调查了该领域的相关研究,并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。
Oct, 2023
通过综合手动和自动方法生成攻击提示的综合方法,提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示,并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性;在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性,并发布了一系列攻击提示数据集(SAP)以便更多大型语言模型的安全评估和增强。
Oct, 2023
提出了一种名为MART(Multi-round Automatic Red-Teaming)的自动多轮红队方法,通过自动对抗性提示编写和安全响应生成,显著提高了红队的可扩展性和目标大型语言模型的安全性。
Nov, 2023
自动红队测试对于发现和减轻与大型语言模型(LLMs)恶意使用相关的风险具有重要意义,然而该领域缺乏一个标准化评估框架来严格评估新方法。为解决这个问题,我们引入了HarmBench,一个用于自动化红队测试的标准化评估框架。使用HarmBench,我们对18种红队测试方法和33种目标LLMs和防御进行了大规模比较,得出了新的见解。我们还引入了一种高效的对抗训练方法,极大地增强了LLMs对各种攻击的鲁棒性,展示了HarmBench如何实现攻击和防御的共同发展。我们在该https URL上开源了HarmBench。
Feb, 2024
通过在LLM的连续嵌入空间中计算对抗攻击来提高对离散攻击的鲁棒性,我们提出了一种快速的对抗训练算法(C-AdvUL),通过对对抗行为数据集上计算的连续嵌入攻击使模型变得鲁棒;我们还引入了C-AdvIPO,这是一种对抗的IPO变体,不需要效用数据进行对抗性鲁棒对齐。我们的实证评估表明,这两个算法显著提高了LLM对离散攻击的鲁棒性,并保持了效用。这些结果表明,对连续扰动的鲁棒性可以外推到离散的威胁模型,为大规模对抗训练算法的鲁棒对齐LLM提供了一条路径。
May, 2024
我们引入了一种名为LLAMOS的新型防御技术,通过净化输入到目标大型语言模型之前的对抗文本示例,以增强大型语言模型的对抗鲁棒性。我们的方法包括两个主要组成部分:a) 代理指示,可以模拟新的代理进行对抗防御,通过最小限度地更改字符来保持句子的原始含义,并防御攻击;b) 防御指导,提供修改干净或对抗性示例以确保有效防御和目标大型语言模型准确输出的策略。通过在开源和闭源大型语言模型上进行广泛实验,我们的方法可以有效抵御对抗性攻击,从而提高对抗鲁棒性。
May, 2024
通过优化包含对抗性提示及其安全响应的数据集,我们提出了一个两阶段的对抗调整框架,用于增强大型语言模型在防御能力方面的广义性,实验证明了我们方法的优越性,并展示了它作为可传输防御机制的潜力。
Jun, 2024
引入了WildTeaming框架,该框架通过挖掘用户和聊天机器人的互动来发现新型越狱策略,从而实现对越狱的系统化探索,揭示了先前工作所没有发现的对于最新的LLMs的漏洞,导致比最先进的越狱方法多达4.6倍更多样化和成功的对抗攻击。还提出了WildJailbreak,一个大规模的开源合成安全数据集,通过对现有安全资源的质量和规模进行升级,使我们能够研究数据的扩展效应以及数据属性和模型能力在安全训练过程中的相互作用,从而实现模型的平衡安全行为。
Jun, 2024
使用深度对抗自动化红队技术(DART)框架,在目标大型语言模型(LLM)的动态演进过程中,通过红色LLM自动生成对抗性提示,监控全局攻击多样性,并通过主动学习数据选择机制来提高目标LLM的安全性,从而显著降低了目标LLM的安全风险。
Jul, 2024
本研究解决了大型语言模型(LLMs)在安全性和防止有害输出方面的挑战,提出了自我进化对抗安全(SEAS)优化框架。通过模型自生成的数据,该框架通过初始化、攻击和对抗优化三个迭代阶段来增强模型的安全性,显著减少对人工测试的依赖,并有效提高LLMs的安全能力。研究表明,经过三次迭代,目标模型的安全性与GPT-4相当,红队模型的攻击成功率显著提升。
Aug, 2024