May, 2024

ART:自动红队针对文本到图像模型保护正常用户

TL;DR大规模的预训练生成模型在生成创意内容方面表现出色,但是存在安全风险,为了保护用户的权益和安全,我们提出了一种名为 ART 的新型自动红队框架,旨在通过结合视觉语言模型和大型语言模型,有效地识别文本转图像模型的漏洞,并通过实验证明了这种方法的有效性和适应性,以及 ART 引入的三个大规模红队数据集用于研究与文本转图像模型相关的安全风险。