Aug, 2023

绕过文本到图像生成模型的概念消除方法

TL;DR从文本到图像生成模型到 AI 安全的概念消除方法,这篇论文研究了五种最近提出的概念消除方法,并展示了这些方法中没有一个能完全抹除目标概念,并通过利用特殊的学习词嵌入证明了目标概念可以从消除后的模型中找回,这突显了事后概念消除方法的脆弱性,并对其在 AI 安全算法工具箱中的使用产生了质疑。