近年来,文本到图像(T2I)模型取得了显著进展并广泛应用,然而这一进展无意中开辟了潜在的滥用途径,尤其是生成不适宜或不安全的内容。我们的工作引入了 MMA-Diffusion,这是一个对 T2I 模型安全性构成严重和真实威胁的框架,通过有效绕过开源模型和商业在线服务的当前防御措施。与以往的方法不同,MMA-Diffusion 利用文本和视觉模式来绕过提示过滤器和事后安全检查器等保护措施,从而揭示现有防御机制的弱点。
Nov, 2023
通过提出 “免疫条件” 作为对抗有害微调攻击的一种形式框架,并实验性地使用对抗性损失示范对 LLama2-7b-chat 进行免疫,我们综合了不同的研究方向,以预防有害微调攻击。
Feb, 2024
提出一种新的对抗性训练方法,称为增量边界对抗训练 (Increasing-Margin Adversarial Training),该方法通过生成最佳对抗性训练样本来提高鲁棒性,同时保持准确性,在医学图像分类和分割应用中实现了准确性和鲁棒性的平衡。
May, 2020
通过向受保护的数据集中注入记忆注入,我们提出了一种检测未经授权的数据使用的方法,分析模型是否对注入内容进行了记忆,从而可以检测非法使用未经授权数据的情况。
Jul, 2023
为了解决文本到图像扩散模型对抗攻击的问题,本研究提出了 MetaCloak 方法,利用元学习框架和附加的转换采样过程来解决双层毒化问题,从而产生可转移和鲁棒的扰动。通过对 VGGFace2 和 CelebA-HQ 数据集的大量实验证明,MetaCloak 优于现有方法,能够在黑盒方式下成功欺骗 Replicate 等在线训练服务,展示了 MetaCloak 在实际场景中的有效性。
通过在精选数据集中插入有毒数据,利用多模式大型语言模型和文本引导的图像修复技术,本研究证实了在触发特定提示时,微调扩散模型可以生成受版权保护的内容,从而揭示了现行版权保护策略中潜在的陷阱,强调了对扩散模型滥用的加强审查和预防措施的必要性。
Jan, 2024
探索视频图像的方式以阻碍艺术风格模仿,验证个别帧和短场景的优化基准能够恢复对艺术模仿的保护,同时抵御适应性对策。
May, 2024
本文提出了一种改进的图像免疫方案 Imuge+,采用可逆神经网络来实现图像免疫和恢复,并引入了一个有效的攻击层用于恶意篡改和善意图像后处理,其中使用了基于蒸馏的 JPEG 模拟器来提高 JPEG 的鲁棒性。实验表明,我们的方法在真实世界的测试中表现出准确的篡改定位和高保真的内容恢复,并且相比于被动取证技术的最新方案,具有优异的篡改定位性能。
Oct, 2022
采用多模态先验信息,我们提出了一种名为 MMP-Attack 的目标攻击方法,它可以在图像内容中添加目标对象并同时删除原始对象。MMP-Attack 相对于现有方法具有更好的普适性和可迁移性,可以有效地攻击商业文本到图像模型(如 DALL-E 3),这是对商业文本到图像模型进行迁移式攻击的首次成功尝试。
本文研究了扩散模型对于人工智能生成内容,特别是艺术创作的成功,并提出了针对侵权的对抗样本有效性方案。我们探讨了对抗样本的可迁移性问题并利用融合与修改的对抗损失函数明显提高了其可迁移性。实验结果表明我们的方法比现有方法更能生成可迁移且更具有对抗攻击鲁棒性的对抗样本。
May, 2023