文本到图像模型中的危害放大
通过利用嵌入的语言模型的数学基础,我们的技术使得在模型偏见的作用下对输出的严重程度进行可扩展和便捷的控制,同时也允许通过精确的提示工程生成通常不真实的图像,我们还演示了将此操纵用于平衡生成类别频率的构造性应用。
Apr, 2024
通过使用生成方法增强文本到图像模型的鲁棒性,GuardT2I 框架在对抗性场景下显著优于 OpenAI-Moderation 和 Microsoft Azure Moderator 等商业解决方案。
Mar, 2024
通过对 T2I(Text-to-Image)生成模型中的偏见进行研究调查,揭示了存在的社会偏见对少数群体的边缘化造成的影响,并指出在研究中存在的限制和未来的研究方向。
Apr, 2024
从生成图像的文本到图像(T2I)生成 AI 模型的发展中,评估模型对非明显攻击的鲁棒性至关重要。在本文中,我们通过关注 “隐式对抗” 提示(触发 T2I 模型因非明显原因生成不安全图像的提示),独立确定了一组难以发现的安全问题,而人类创造力很适合揭示这些问题。通过构建 Adversarial Nibbler Challenge,一种用于众包隐式对抗提示的红队方法,我们汇集了一套最先进的 T2I 模型,并采用简单的用户界面来识别和注释伤害,与不同人群合作,以捕捉在标准测试中可能被忽视的长尾安全问题。挑战以连续轮次进行,以便在 T2I 模型的安全隐患的发现和分析中持续进行。本文详细介绍了我们的方法、对新攻击策略的系统性研究以及挑战参与者揭示的安全故障的讨论。我们还发布了一个伴随的可视化工具,方便从数据集中探索和得出洞察。第一轮挑战结果得到了超过 10,000 个提示 - 图像对的安全机器注释,其中 1,500 个样本的注释包含丰富的人工伤害类型和攻击风格。我们发现,人类认为有害的图像中,有 14%被机器错误标记为 “安全”。我们已经发现了新的攻击策略,凸显了确保 T2I 模型的鲁棒性的复杂性。我们的研究结果强调了对新漏洞的持续审核和适应性的必要性。我们相信这项工作将促进积极的、迭代性的安全评估,并促进 T2I 模型的负责开发。
Feb, 2024
本文对语言生成模型潜在威胁与社会危害进行了调查研究,提供了探查与缓解风险和伤害的实用方法,旨在为大型语言模型研究人员和从业者提供实用指南。
Oct, 2022
研究表明,现在机器学习模型能够将用户写的文本描述转换成逼真的图像,并且这些模型现在可以在线使用,每天可生成数百万张图像。然而,我们发现这些模型放大了危险和复杂的刻板印象,并且这些放大的刻板印象难以预测,用户或模型所有者也难以减轻其影响。这些图像生成模型的大规模部署是否会延续和放大刻板印象,这是非常值得关注的问题。
Nov, 2022
最近的文本到图像(T2I)模型取得了巨大的成功,并提出了许多基准来评估其性能和安全性。然而,它们只考虑了显性提示而忽视了隐性提示(暗示目标而没有明确提及)。这些提示可能摆脱安全约束,并对这些模型的应用构成潜在威胁。本文强调了 T2I 模型在隐性提示方面的现状,提出了一个名为 ImplicitBench 的基准,并对隐性提示对流行的 T2I 模型的性能和影响进行了调查。具体而言,我们设计并收集了三个方面的 2,000 多个隐性提示:一般符号、名人隐私和不适宜工作(NSFW)问题,并评估了六个知名 T2I 模型在这些隐性提示下的能力。实验结果表明:(1)T2I 模型能够准确地创建由隐性提示指示的各种目标符号;(2)隐性提示给 T2I 模型带来隐私泄露的潜在风险;(3)大多数评估的 T2I 模型中的 NSFW 约束可以通过隐性提示绕过。我们呼吁 T2I 社区更加关注隐性提示的潜力和风险,并进一步调查隐性提示的能力和影响,倡导一种平衡的方法,既发挥其益处又减轻其风险。
Mar, 2024
本文通过对两个流行的 T2I 模型(DALLE-v2 和 Stable Diffusion)进行广泛的自动化和人工评估实验,专注于反映出的性别、年龄、种族和地理位置之间的职业,人格特征和日常情况的生成图像,研究和量化常见的社会偏见。我们的研究结果表明,这些模型中存在严重的职业偏见和地理位置代表的日常情况。尽管可以通过增加提示本身的详细信息来缓解这些偏差,但提示缓解可能无法解决图像质量或模型在其他场景中的其他用途的差异。
Mar, 2023
我们提出了第一个用于黑盒情况下安全 T2I 生成的通用提示优化器,通过构建毒性 - 清洁提示对数据集,设计奖励函数衡量生成图像的毒性和文本对齐度来训练优化器,实验证明我们的方法可以显著减少不当图像的生成概率,并且对文本对齐没有明显影响,同时与其他方法相结合能够取得更好的性能。
Feb, 2024