文本倒装用于概念审查的后门技术

Aug, 2023

文本倒装用于概念审查的后门技术

Backdooring Textual Inversion for Concept Censorship

Yutong wu, Jie Zhang, Florian Kerschbaum, Tianwei Zhang

TL;DR通过在 Textual Inversion 嵌入式中注入后门技术，实现概念审查，以防止个人化技术被恶意用户滥用。

Abstract

Recent years have witnessed success in AIGC (ai generated content). People can make use of a pre-trained diffusion model to generate images of high quality or freely modify existing pictures with only prompts in nature language. More excitingly, the emerging →

ai generated content personalization techniques concept censorship textual inversion backdoor technique

发现论文，激发创造

可控个性化文本到图像生成的文本反转

本文提出了一种名为 COTI 的新方法，应用在大规模生成模型中，通过一个综合的、新颖的加权评分机制指导的理论损失目标，实现了具有鲁棒性、数据高效性和易于使用等特点，能够显著提升 FID 得分并增加 R-precision 的生成模型，一定程度上解决了过往生成模型中仍存在的问题。

Apr, 2023

通过个性化对文本到图像扩散模型进行的零日后门攻击

研究了个人化的文本到图像（T2I）扩散模型的潜在漏洞和易受攻击的方法，并探讨了两种个性化方法中零日后门漏洞的普遍性及其操作和利用潜力，并分析了触发器和概念图像对攻击效果的影响。

May, 2023

严重程度可控的文本到图像生成模型的偏倚操纵

通过利用嵌入的语言模型的数学基础，我们的技术使得在模型偏见的作用下对输出的严重程度进行可扩展和便捷的控制，同时也允许通过精确的提示工程生成通常不真实的图像，我们还演示了将此操纵用于平衡生成类别频率的构造性应用。

Apr, 2024

一张图抵一千言：使用文本反演个性化文本到图像生成

使用 3-5 张用户提供的概念图片，在文本到图像模型的嵌入空间中学习表示之后，将其转化成新的 “单词”，从而达到自由创造。

Aug, 2022

绕过文本到图像生成模型的概念消除方法

从文本到图像生成模型到 AI 安全的概念消除方法，这篇论文研究了五种最近提出的概念消除方法，并展示了这些方法中没有一个能完全抹除目标概念，并通过利用特殊的学习词嵌入证明了目标概念可以从消除后的模型中找回，这突显了事后概念消除方法的脆弱性，并对其在 AI 安全算法工具箱中的使用产生了质疑。

Aug, 2023

基于视觉概念驱动的文字到图像扩散模型的图像生成

我们提出了一个概念驱动的文本到图像（TTI）个性化框架，通过学习用户提供的图像示例中的概念，以及一种交替优化过程，进一步改进了现有的 TTI 模型，使其能够生成具有多个交互概念的图像。

Feb, 2024

通过多模态数据污染很容易植入后门的文本转图像扩散模型

本文通过在三个语义层次（像素、物体和风格）上对基于文本到图像转换的扩散模型的后门攻击进行实验和讨论，提出了 BadT2I 攻击框架并利用正则化损失注入恶意输入。实验结果表明，现代扩散模型可以在几个微调步骤内轻易被后门攻击，在进一步的训练过程中攻击效果仍能保持。

May, 2023

多概念 T2I-Zero：仅调整文本嵌入，不涉及其他部分

通过对预训练文本到图像扩散模型中的文本嵌入进行微调，我们设计了一种低成本的解决方案，实现自然多概念文本到图像生成，并在扩散步骤中不增加附加的训练或推理成本。我们的方法通过收集与最相似的令牌的语义特征来定位贡献，并应用交叉令牌非极大值抑制来避免不同概念之间的特征混合，从而在文本到图像、图像操作和个性化任务中优于以前的方法。

Oct, 2023

个性化文本图像生成的交叉初始化

通过初始化方法的研究，我们提出了一种称为 Cross Initialization 的新型初始化方法，它明显缩小了初始嵌入和学习嵌入之间的差距，通过与正则化项相结合，有效提高了可编辑性，并在编辑人脸表情方面取得了成功，同时实现了较快的图像捕获速度和较好的重建和可编辑性。

Dec, 2023

通过复合触发背门在文本到图像模型中注入偏见

对文本到图像生成模型中的攻击漏洞进行了研究，证明了通过少量恶意数据样本在特殊触发条件下激活的后门攻击的可行性，突出了在操作限制下证明偏见存在的挑战，并强调了对这些漏洞的强大防御策略的需求。

Jun, 2024