构建强鲁棒性、不可察觉的对抗非授权文本 - 图像扩散合成

Nov, 2023

构建强鲁棒性、不可察觉的对抗非授权文本 - 图像扩散合成

Toward Robust Imperceptible Perturbation against Unauthorized Text-to-image Diffusion-based Synthesis

Yixin Liu, Chenrui Fan, Yutong Dai, Xun Chen, Pan Zhou...

TL;DR为了解决文本到图像扩散模型对抗攻击的问题，本研究提出了 MetaCloak 方法，利用元学习框架和附加的转换采样过程来解决双层毒化问题，从而产生可转移和鲁棒的扰动。通过对 VGGFace2 和 CelebA-HQ 数据集的大量实验证明，MetaCloak 优于现有方法，能够在黑盒方式下成功欺骗 Replicate 等在线训练服务，展示了 MetaCloak 在实际场景中的有效性。

Abstract

text-to-image diffusion models allow seamless generation of personalized images from scant reference photos. Yet, these tools, in the wrong hands, can fabricate misleading or harmful content, endangering individuals. To address this problem, existing →

text-to-image diffusion models poisoning-based approaches metacloak transferable and robust perturbation online training services

发现论文，激发创造

扩散模型越强，后门越容易：通过数据投毒实现版权侵权而无需调整微调流程

通过在精选数据集中插入有毒数据，利用多模式大型语言模型和文本引导的图像修复技术，本研究证实了在触发特定提示时，微调扩散模型可以生成受版权保护的内容，从而揭示了现行版权保护策略中潜在的陷阱，强调了对扩散模型滥用的加强审查和预防措施的必要性。

Jan, 2024

通过多模态数据污染很容易植入后门的文本转图像扩散模型

本文通过在三个语义层次（像素、物体和风格）上对基于文本到图像转换的扩散模型的后门攻击进行实验和讨论，提出了 BadT2I 攻击框架并利用正则化损失注入恶意输入。实验结果表明，现代扩散模型可以在几个微调步骤内轻易被后门攻击，在进一步的训练过程中攻击效果仍能保持。

May, 2023

基于文本引导的鲁棒性基准测试

本研究探讨了图像分类器对以文字为导向的失真的鲁棒性，并利用扩散模型对图像进行不同域的编辑，研究结果表明：在不同语言为基础的失真和编辑域中，图像分类器的性能显著下降，卷积模型比变压器架构更为鲁棒，同时，常见的数据扩充技术可以提高原始数据和编辑图像的性能。

Apr, 2023

通过对抗解耦增强框架实现面部隐私保护的提示鲁棒性

本研究提出了一种基于 Adversarial Decoupling Augmentation Framework (ADAF) 的面部隐私保护算法，通过针对图像 - 文本融合模块增强面部隐私保护算法的防御性能，采用多级文本相关增强措施提高对各种攻击者提示的防御稳定性，并在 CelebA-HQ 和 VGGFace2 上进行广泛的实验，证明了 ADAF 比现有算法具有更好的性能。

May, 2023

如何在文本图像扩散模型中检测未经授权的数据使用

通过向受保护的数据集中注入记忆注入，我们提出了一种检测未经授权的数据使用的方法，分析模型是否对注入内容进行了记忆，从而可以检测非法使用未经授权数据的情况。

Jul, 2023

元毒：实用的通用干净标签数据投毒

MetaPoison 是一种第一阶段方法，它通过元学习来近似二级问题，并制造了能欺骗神经网络的有毒数据，解决了深度模型中数据污染的问题，此举可攻击黑盒 API。

Apr, 2020

基于扩散式图像变体的鲁棒训练对抗数据

隐形功能型后门攻击对训练神经网络构成了严重的安全威胁，本文提出了一种基于扩散模型及知识蒸馏的新方法，能够在潜在受污染的数据集上训练模型，并生成具备对抗后门触发的鲁棒性的学生模型。

Oct, 2023

个性化扩散模型中的快速学习探究与防御

通过捷径学习视角细致观察个性化扩散模型的微调过程，提出了一种能解释现有扰动方法基本捷径学习漏洞的假设。基于这一观察，提出了一种系统性方法来保持训练绩效并通过纯化重排潜在图像和其语义含义，还引入了负令牌的对比学习，以解耦所需的干净身份学习和不需要的噪声模式，对进一步适应性扰动显示出强大的潜力能力。

Jun, 2024

面向不可察觉和可迁移对抗攻击的扩散模型

论文介绍一种新型的对抗攻击方法 DiffAttack，该方法利用扩散模型的生成和判别能力，在隐空间中生成人类感知不到的、带有语义线索的扰动，并采用内容保持结构。考虑到攻击的传递性，DiffAttack 进一步 “欺骗” 扩散模型，以分散其注意力，达到更好的转移性能，实验结果表明，DiffAttack 在各种模型结构和防御方法下具有更高的攻击成功率。

May, 2023

通过稳定扩散进行高度个性化的文本嵌入以进行图像操作

本文介绍一种基于高度个性化文本嵌入的简单而高效的方法，通过分解 CLIP 嵌入空间来实现个性化和内容操作，并且仅需要一个图像和目标文本即可实现背景、纹理和动态的操作和编辑。

Mar, 2023