ART:自动红队针对文本到图像模型保护正常用户
通过提出一种自动红队框架,我们展示了如何评估给定模型并暴露其对不安全和不适当内容生成的漏洞,并通过上下文学习和不同攻击策略来自动学习对图像生成模型有效多样的对抗提示。我们的实验证明,与基线方法相比,我们提出的策略在暴露 Stable Diffusion(SD)模型的漏洞方面效果明显更好,即使后者已经增强了安全功能。此外,我们还展示了该框架对文本生成模型的红队效果,相较于以前报道的数据,显著提高了生成有害响应的概率。
Aug, 2023
通过自动生成敌对评估数据集,提供了一种新的方法,用于测试大型语言模型在新的下游应用中生成结果的安全性,为了减少人工工作量并能够更早地集成敌对测试,使用 AI 辅助的可重复和可定制的数据生成和增强流程,生成具有高内容特征多样性的评估数据集,结果显示与一些最先进的工具相比,在概念覆盖和数据质量方面具有很大的潜力。
Nov, 2023
从生成图像的文本到图像(T2I)生成 AI 模型的发展中,评估模型对非明显攻击的鲁棒性至关重要。在本文中,我们通过关注 “隐式对抗” 提示(触发 T2I 模型因非明显原因生成不安全图像的提示),独立确定了一组难以发现的安全问题,而人类创造力很适合揭示这些问题。通过构建 Adversarial Nibbler Challenge,一种用于众包隐式对抗提示的红队方法,我们汇集了一套最先进的 T2I 模型,并采用简单的用户界面来识别和注释伤害,与不同人群合作,以捕捉在标准测试中可能被忽视的长尾安全问题。挑战以连续轮次进行,以便在 T2I 模型的安全隐患的发现和分析中持续进行。本文详细介绍了我们的方法、对新攻击策略的系统性研究以及挑战参与者揭示的安全故障的讨论。我们还发布了一个伴随的可视化工具,方便从数据集中探索和得出洞察。第一轮挑战结果得到了超过 10,000 个提示 - 图像对的安全机器注释,其中 1,500 个样本的注释包含丰富的人工伤害类型和攻击风格。我们发现,人类认为有害的图像中,有 14%被机器错误标记为 “安全”。我们已经发现了新的攻击策略,凸显了确保 T2I 模型的鲁棒性的复杂性。我们的研究结果强调了对新漏洞的持续审核和适应性的必要性。我们相信这项工作将促进积极的、迭代性的安全评估,并促进 T2I 模型的负责开发。
Feb, 2024
提出了一种名为 MART(Multi-round Automatic Red-Teaming)的自动多轮红队方法,通过自动对抗性提示编写和安全响应生成,显著提高了红队的可扩展性和目标大型语言模型的安全性。
Nov, 2023
在将大型语言模型整合到社会中时,对一套提示的鲁棒性越来越重要,以确保在高差异环境中保持可靠性。本文提出了 ASSERT(自动化安全场景红队演练),包括三种方法:语义对齐增强、目标引导和对抗性知识注入。为了进行鲁棒安全评估,我们将这些方法应用于 AI 安全关键领域,以算法生成一套涵盖多样的鲁棒性设置的测试提示。我们将提示分为四个安全领域,以对领域如何影响模型性能进行精细分析。尽管现有最先进模型具有专用的安全措施,但我们发现在语义相关场景中,绝对分类准确率存在高达 11% 的统计学显著性差异,零样本对抗设置中的错误率高达 19% 的绝对误差,给用户的身体安全带来了担忧。
Oct, 2023
利用 Prompting4Debugging (P4D) 工具,我们发现了 Stable Diffusion(SD)模型中的新脆弱性,显示出许多原先被认为 “安全” 的提示实际上可以绕过许多已部署的安全机制,包括概念删除、负面提示和安全指导。这些发现表明,在没有全面测试的情况下,对有限的安全提示基准进行评估可能导致对文本到图像模型的安全性产生错误的认识。
Sep, 2023
通过参数化红队技术与非对齐性使得 Large Language Models (LLMs) 的安全性得到破坏,揭示模型中存在的潜在有害信息和偏见。
Oct, 2023
YaART 是一种有效且高保真度的产业级文本到图像扩散模型,通过强化学习从人类反馈中对齐到人类偏好。在开发 YaART 过程中,我们特别关注模型和训练数据集大小的选择,这些方面在文本到图像扩散模型中以前没有系统地进行研究。特别是,我们全面分析了这些选择如何影响训练过程的效率和生成图像的质量,这在实践中非常重要。此外,我们证明了在高质量图像的较小数据集上训练的模型能够成功与在较大数据集上训练的模型竞争,建立了更高效的扩散模型训练场景。从质量的角度来看,YaART 始终优于许多现有的最先进模型。
Apr, 2024
使用 GFlowNet fine-tuning 和二次平滑阶段对攻击者模型进行训练,生成多样且有效的攻击触发词,攻击方法对多种目标大语言模型有效,且通过基于强化学习的红队方法生成的红队训练触发词进行模型安全调优可有效防护。
May, 2024
生成模型和红队的攻击策略研究与语言模型的功能能力密切相关,调查还涉及到多模式攻击等新领域,希望这个调查能够为研究领域提供系统的视角并开启新的研究领域。
Mar, 2024