BAGM: 用于操纵文本到图像生成模型的后门攻击

Jul, 2023

BAGM: 用于操纵文本到图像生成模型的后门攻击

BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models

Jordan Vice, Naveed Akhtar, Richard Hartley, Ajmal Mian

TL;DR本研究报告介绍了针对文本到图像生成模型的后门攻击（BAGM），该攻击通过修改嵌入式分词器和预训练的语言和视觉神经网络的行为来对文本到图像生成流程的各个阶段进行攻击。我们将 BAGM 的效果与其他最新出现的相关方法进行了比较，并为未来评估后门攻击对生成式 AI 模型的性能贡献了一套定量指标。我们在数字营销场景下以稳定扩散流水线作为目标领域来验证所提出的框架的有效性，并贡献了一个品牌产品图像数据集。我们希望这项工作能够揭示当代生成式 AI 安全挑战，并促进对预防性措施的讨论。

Abstract

The rise in popularity of text-to-image generative artificial intelligence (AI) has attracted widespread public interest. At the same time, backdoor attacks are well-known in machine learning literature for their effective manipulation of neural models, which is a growing concern among

generative artificial intelligence generative models text-to-image generation backdoor attacks stable diffusion

发现论文，激发创造

使用 ChatGPT 作为攻击工具：通过黑盒生成模型触发的微妙文本后门攻击

本文研究黑盒生成模型作为后门攻击工具的作用以及相关防御策略，通过提出的基于生成模型的攻击方法 BGMAttack，证明其在对文本分类器进行攻击时能够有效地欺骗目标模型且更具隐秘性。五个不同数据集的广泛攻击效果评估，以及三个不同的人类认知评估均证明了该攻击方法的表现与基准方法相当，但更隐蔽。

Apr, 2023

通过多模态数据污染很容易植入后门的文本转图像扩散模型

本文通过在三个语义层次（像素、物体和风格）上对基于文本到图像转换的扩散模型的后门攻击进行实验和讨论，提出了 BadT2I 攻击框架并利用正则化损失注入恶意输入。实验结果表明，现代扩散模型可以在几个微调步骤内轻易被后门攻击，在进一步的训练过程中攻击效果仍能保持。

May, 2023

扩散模型的隐形后门攻击

本文介绍了一种创新而多功能的优化框架，用于获取不可见的触发器，增强插入后门的隐蔽性和韧性。我们的研究首次展示了在文本引导的图像编辑和修复流程中进行扩散模型后门注入的能力，同时还发现条件生成中的后门直接适用于模型水印验证，进一步提升了所提框架的重要性。多个常用采样器和数据集上的广泛实验证实了所提框架的有效性和隐蔽性。

Jun, 2024

通过复合触发背门在文本到图像模型中注入偏见

对文本到图像生成模型中的攻击漏洞进行了研究，证明了通过少量恶意数据样本在特殊触发条件下激活的后门攻击的可行性，突出了在操作限制下证明偏见存在的挑战，并强调了对这些漏洞的强大防御策略的需求。

Jun, 2024

自编码器和 GAN 机器学习模型的后门攻击

本文研究了自编码器和生成对抗网络中的后门攻击，提出了第一个能够控制解码或生成图像的后门攻击，并展示了攻击者成功地对模型执行的能够返回目标输出的自编码器和在激活后能够生成与原模型数据分布不同的数据的生成对抗网络。

Oct, 2020

自然语言生成中的后门攻击防护

本文研究神经网络模型中存在的后门攻击对自然语言生成系统的影响，并提出了相应的防御策略。通过测试生成目标给定源的后向概率，能够有效地防御各种类型的攻击，并处理对话生成等多任务中的一对多问题。该研究有望引起人们对深度自然语言生成系统中后门风险的关注，并启发更多有关攻击和防御的未来研究。

Jun, 2021

关于水印人工智能生成内容的弱点研究

人工智能生成内容 (AIGC) 在社交媒体上越来越受欢迎，其服务利用先进的生成模型，如潜在扩散模型和大型语言模型，为用户生成创意内容 (例如逼真的图像，流畅的句子)。本文展示了水印在生成的内容中的易破解性，并提出了 WMaGi 框架，通过利用预训练的扩散模型和生成对抗网络实现水印的移除和伪造，从而实现对生成内容的高速攻击。

Sep, 2023

机器学习模型的动态后门攻击

本研究提出了一种针对深度神经网络的动态后门技术，该技术具有随机模式和位置，其生成的触发器降低了当前后门检测机制的有效性，可很好地规避当前防御后门攻击的最先进机制，并在 MNIST、CelebA 和 CIFAR-10 数据集上取得了几乎完美的攻击结果，极小化实用性损失。

Mar, 2020

向文本编码器注入后门，滋扰艺术创作：文本到图像合成

介绍了一种针对文本引导的生成模型的后门攻击，揭示了文本编码器的实际修改可能性和潜在威胁，并通过在提示中插入单个字符触发器的方式，演示了攻击的高有效性。同时，还讨论了如何强制让编码器从忘记一些相关的概念，以便更加安全地生成图像。

Nov, 2022

两个简单技巧使得文本后门攻击更加有害

本文针对深度学习领域的后门攻击进行研究，通过添加训练任务以区分被污染数据和干净数据，以及使用原有的干净数据进行攻击，提高攻击效果，并在三种场景下进行了实验验证。

Oct, 2021