IMMA：针对恶意适应进行文本到图像模型的免疫化

Nov, 2023

IMMA：针对恶意适应进行文本到图像模型的免疫化

IMMA: Immunizing text-to-image Models against Malicious Adaptation

Yijia Zheng, Raymond A. Yeh

TL;DR通过学习模型的参数来对抗恶意适应方法，并有效防止生成不良内容的方法 IMMA，在三种适应方法（LoRA、Textual-Inversion 和 DreamBooth）中表现出很高的效果。

Abstract

Advancements in text-to-image models and fine-tuning methods have led to the increasing risk of malicious adaptation, i.e., fine-tuning to

text-to-image models fine-tuning methods malicious adaptation data-poisoning techniques immunize the model

发现论文，激发创造

MMA-Diffusion：多模态对抗扩散模型

近年来，文本到图像（T2I）模型取得了显著进展并广泛应用，然而这一进展无意中开辟了潜在的滥用途径，尤其是生成不适宜或不安全的内容。我们的工作引入了 MMA-Diffusion，这是一个对 T2I 模型安全性构成严重和真实威胁的框架，通过有效绕过开源模型和商业在线服务的当前防御措施。与以往的方法不同，MMA-Diffusion 利用文本和视觉模式来绕过提示过滤器和事后安全检查器等保护措施，从而揭示现有防御机制的弱点。

Nov, 2023

免疫有害微调攻击

通过提出 “免疫条件” 作为对抗有害微调攻击的一种形式框架，并实验性地使用对抗性损失示范对 LLama2-7b-chat 进行免疫，我们综合了不同的研究方向，以预防有害微调攻击。

Feb, 2024

提高神经网络的对抗鲁棒性的增量余量对抗训练 (IMA)

提出一种新的对抗性训练方法，称为增量边界对抗训练 (Increasing-Margin Adversarial Training)，该方法通过生成最佳对抗性训练样本来提高鲁棒性，同时保持准确性，在医学图像分类和分割应用中实现了准确性和鲁棒性的平衡。

May, 2020

如何在文本图像扩散模型中检测未经授权的数据使用

通过向受保护的数据集中注入记忆注入，我们提出了一种检测未经授权的数据使用的方法，分析模型是否对注入内容进行了记忆，从而可以检测非法使用未经授权数据的情况。

Jul, 2023

构建强鲁棒性、不可察觉的对抗非授权文本 - 图像扩散合成

为了解决文本到图像扩散模型对抗攻击的问题，本研究提出了 MetaCloak 方法，利用元学习框架和附加的转换采样过程来解决双层毒化问题，从而产生可转移和鲁棒的扰动。通过对 VGGFace2 和 CelebA-HQ 数据集的大量实验证明，MetaCloak 优于现有方法，能够在黑盒方式下成功欺骗 Replicate 等在线训练服务，展示了 MetaCloak 在实际场景中的有效性。

Nov, 2023

扩散模型越强，后门越容易：通过数据投毒实现版权侵权而无需调整微调流程

通过在精选数据集中插入有毒数据，利用多模式大型语言模型和文本引导的图像修复技术，本研究证实了在触发特定提示时，微调扩散模型可以生成受版权保护的内容，从而揭示了现行版权保护策略中潜在的陷阱，强调了对扩散模型滥用的加强审查和预防措施的必要性。

Jan, 2024

破坏视频图像的风格模仿攻击

探索视频图像的方式以阻碍艺术风格模仿，验证个别帧和短场景的优化基准能够恢复对艺术模仿的保护，同时抵御适应性对策。

May, 2024

学习图像免疫性进行篡改定位和自我恢复

本文提出了一种改进的图像免疫方案 Imuge+，采用可逆神经网络来实现图像免疫和恢复，并引入了一个有效的攻击层用于恶意篡改和善意图像后处理，其中使用了基于蒸馏的 JPEG 模拟器来提高 JPEG 的鲁棒性。实验表明，我们的方法在真实世界的测试中表现出准确的篡改定位和高保真的内容恢复，并且相比于被动取证技术的最新方案，具有优异的篡改定位性能。

Oct, 2022

作弊的后缀：基于多模态先验的针对文本到图像扩散模型的定向攻击

采用多模态先验信息，我们提出了一种名为 MMP-Attack 的目标攻击方法，它可以在图像内容中添加目标对象并同时删除原始对象。MMP-Attack 相对于现有方法具有更好的普适性和可迁移性，可以有效地攻击商业文本到图像模型（如 DALL-E 3），这是对商业文本到图像模型进行迁移式攻击的首次成功尝试。

Feb, 2024

Mist：面向扩散模型的改进对抗样本

本文研究了扩散模型对于人工智能生成内容，特别是艺术创作的成功，并提出了针对侵权的对抗样本有效性方案。我们探讨了对抗样本的可迁移性问题并利用融合与修改的对抗损失函数明显提高了其可迁移性。实验结果表明我们的方法比现有方法更能生成可迁移且更具有对抗攻击鲁棒性的对抗样本。

May, 2023