Feb, 2024

对抗性 Nibbler:一种用于识别文本到图像生成中多样化伤害的开放式红队方法

TL;DR从生成图像的文本到图像(T2I)生成 AI 模型的发展中,评估模型对非明显攻击的鲁棒性至关重要。在本文中,我们通过关注 “隐式对抗” 提示(触发 T2I 模型因非明显原因生成不安全图像的提示),独立确定了一组难以发现的安全问题,而人类创造力很适合揭示这些问题。通过构建 Adversarial Nibbler Challenge,一种用于众包隐式对抗提示的红队方法,我们汇集了一套最先进的 T2I 模型,并采用简单的用户界面来识别和注释伤害,与不同人群合作,以捕捉在标准测试中可能被忽视的长尾安全问题。挑战以连续轮次进行,以便在 T2I 模型的安全隐患的发现和分析中持续进行。本文详细介绍了我们的方法、对新攻击策略的系统性研究以及挑战参与者揭示的安全故障的讨论。我们还发布了一个伴随的可视化工具,方便从数据集中探索和得出洞察。第一轮挑战结果得到了超过 10,000 个提示 - 图像对的安全机器注释,其中 1,500 个样本的注释包含丰富的人工伤害类型和攻击风格。我们发现,人类认为有害的图像中,有 14%被机器错误标记为 “安全”。我们已经发现了新的攻击策略,凸显了确保 T2I 模型的鲁棒性的复杂性。我们的研究结果强调了对新漏洞的持续审核和适应性的必要性。我们相信这项工作将促进积极的、迭代性的安全评估,并促进 T2I 模型的负责开发。