May, 2023

通过多模态数据污染很容易植入后门的文本转图像扩散模型

TL;DR本文通过在三个语义层次(像素、物体和风格)上对基于文本到图像转换的扩散模型的后门攻击进行实验和讨论,提出了 BadT2I 攻击框架并利用正则化损失注入恶意输入。实验结果表明,现代扩散模型可以在几个微调步骤内轻易被后门攻击,在进一步的训练过程中攻击效果仍能保持。