Sep, 2023

从安全基准筛选敌对提示:关于敌对咬地机挑战的报告

TL;DR文本条件的图像生成模型在图像质量和对齐性方面取得了惊人的结果,然而它们依赖于从网络随机获取的数量庞大的数据集,因此也会生成不安全的内容。作为对 Adversarial Nibbler 挑战的贡献,我们从现有的安全基准中提取了超过 1,000 个潜在对抗性输入,通过对收集到的提示和相应的图像进行分析,揭示了输入过滤器的脆弱性并进一步深入研究了当前生成图像模型中的系统安全问题。