向文本编码器注入后门，滋扰艺术创作：文本到图像合成

Nov, 2022

向文本编码器注入后门，滋扰艺术创作：文本到图像合成

Rickrolling the Artist: Injecting Backdoors into Text Encoders for Text-to-Image Synthesis

Lukas Struppek, Dominik Hintersdorf, Kristian Kersting

TL;DR介绍了一种针对文本引导的生成模型的后门攻击，揭示了文本编码器的实际修改可能性和潜在威胁，并通过在提示中插入单个字符触发器的方式，演示了攻击的高有效性。同时，还讨论了如何强制让编码器从忘记一些相关的概念，以便更加安全地生成图像。

Abstract

While text-to-image synthesis currently enjoys great popularity among researchers and the general public, the security of these models has been neglected so far. Many text-guided →

text-to-image synthesis backdoor attacks text encoders image generation models security

发现论文，激发创造

通过复合触发背门在文本到图像模型中注入偏见

对文本到图像生成模型中的攻击漏洞进行了研究，证明了通过少量恶意数据样本在特殊触发条件下激活的后门攻击的可行性，突出了在操作限制下证明偏见存在的挑战，并强调了对这些漏洞的强大防御策略的需求。

Jun, 2024

通过多模态数据污染很容易植入后门的文本转图像扩散模型

本文通过在三个语义层次（像素、物体和风格）上对基于文本到图像转换的扩散模型的后门攻击进行实验和讨论，提出了 BadT2I 攻击框架并利用正则化损失注入恶意输入。实验结果表明，现代扩散模型可以在几个微调步骤内轻易被后门攻击，在进一步的训练过程中攻击效果仍能保持。

May, 2023

文本倒装用于概念审查的后门技术

通过在 Textual Inversion 嵌入式中注入后门技术，实现概念审查，以防止个人化技术被恶意用户滥用。

Aug, 2023

BadEncoder: 自监督学习中的预训练编码器后门攻击

本研究研究自监督学习中的后门攻击，提出了 BadEncoder，它将后门注入预训练的图像编码器中，同时保留了下游分类器的准确性。对不同数据集的实验结果表明，这种攻击方法具有高攻击成功率，而常规的防御方法并不能有效防御。

Aug, 2021

两个简单技巧使得文本后门攻击更加有害

本文针对深度学习领域的后门攻击进行研究，通过添加训练任务以区分被污染数据和干净数据，以及使用原有的干净数据进行攻击，提高攻击效果，并在三种场景下进行了实验验证。

Oct, 2021

严重程度可控的文本到图像生成模型的偏倚操纵

通过利用嵌入的语言模型的数学基础，我们的技术使得在模型偏见的作用下对输出的严重程度进行可扩展和便捷的控制，同时也允许通过精确的提示工程生成通常不真实的图像，我们还演示了将此操纵用于平衡生成类别频率的构造性应用。

Apr, 2024

通过个性化对文本到图像扩散模型进行的零日后门攻击

研究了个人化的文本到图像（T2I）扩散模型的潜在漏洞和易受攻击的方法，并探讨了两种个性化方法中零日后门漏洞的普遍性及其操作和利用潜力，并分析了触发器和概念图像对攻击效果的影响。

May, 2023

扩散模型的隐形后门攻击

本文介绍了一种创新而多功能的优化框架，用于获取不可见的触发器，增强插入后门的隐蔽性和韧性。我们的研究首次展示了在文本引导的图像编辑和修复流程中进行扩散模型后门注入的能力，同时还发现条件生成中的后门直接适用于模型水印验证，进一步提升了所提框架的重要性。多个常用采样器和数据集上的广泛实验证实了所提框架的有效性和隐蔽性。

Jun, 2024

序列到序列模型下的后门学习

本文针对输出空间无限离散的 seq2seq 模型做了后门攻击的研究，发现只需注入 0.2% 的样本，即可成功使模型生成指定关键词和完整句子，使用 Byte Pair 编码技术可以创建多个新的后门，通过机器翻译和文本摘要的实验验证了该方法攻击成功率超过 90%。

May, 2023

使用 ChatGPT 作为攻击工具：通过黑盒生成模型触发的微妙文本后门攻击

本文研究黑盒生成模型作为后门攻击工具的作用以及相关防御策略，通过提出的基于生成模型的攻击方法 BGMAttack，证明其在对文本分类器进行攻击时能够有效地欺骗目标模型且更具隐秘性。五个不同数据集的广泛攻击效果评估，以及三个不同的人类认知评估均证明了该攻击方法的表现与基准方法相当，但更隐蔽。

Apr, 2023