分享扩散模型中的隐私和公平风险:对抗视角的探索
本文研究了针对敏感数据的扩散模型的成员推理攻击,提出了基于损失和似然的两种攻击方法,并在各种隐私敏感数据相关的数据集上评估了攻击效果和影响攻击性能的因素。此外,还评估了我们攻击方法在差分隐私的扩散模型上的性能。
Jan, 2023
通过在精选数据集中插入有毒数据,利用多模式大型语言模型和文本引导的图像修复技术,本研究证实了在触发特定提示时,微调扩散模型可以生成受版权保护的内容,从而揭示了现行版权保护策略中潜在的陷阱,强调了对扩散模型滥用的加强审查和预防措施的必要性。
Jan, 2024
本文研究了扩散模型对于人工智能生成内容,特别是艺术创作的成功,并提出了针对侵权的对抗样本有效性方案。我们探讨了对抗样本的可迁移性问题并利用融合与修改的对抗损失函数明显提高了其可迁移性。实验结果表明我们的方法比现有方法更能生成可迁移且更具有对抗攻击鲁棒性的对抗样本。
May, 2023
針對高級文字到圖像擴散模型在身份隱私侵犯、版權侵犯和不宜上班的內容生成方面引起的安全問題,本文旨在利用對抗攻擊的可轉移性來探測黑盒情景下的不學習強健性。
Apr, 2024
提出了一个框架以减少训练数据集中不公平的代表性,其中使用两个相互操作的对手功能来提高公平性。首先,通过训练模型防止猜测受保护属性的值,同时限制效用损失,实现模型公平性优化。然后,利用对抗机器学习的规避攻击生成新的被错误分类的例子,并用于第一步模型的重新训练和改进增强模型的公平性。将这两个步骤迭代应用,直到显著提高公平性。
May, 2020
引入了欺骗扩散的概念 -- 训练生成 AI 模型以产生具有对抗性的图像。与传统的对抗性攻击算法不同,欺骗扩散模型可以创建任意数量的新的、被错误分类的图像,这些图像与训练或测试图像没有直接关联。欺骗扩散在规模上提供了对抗性训练数据以加强防御算法,包括在其他情况下难以找到的错误分类类型。在我们的实验中,我们还研究了在部分受攻击数据集上进行训练的效果。这突出了生成扩散模型的一种新型漏洞:如果攻击者能够秘密地污染部分训练数据,那么生成的扩散模型将产生相似比例的误导输出。
Jun, 2024
使用敌对训练和差分隐私训练的组合,本研究探讨了针对同时攻击的防御方法。通过使用成员推断攻击来基准测试 DP-Adv 技术的性能,并实证显示该方法的隐私性与非鲁棒私有模型相当。此外,该研究还强调了在动态训练范式中探索隐私保证的需求。
Jan, 2024
通过扩散模型生成多个包含不同种族标签的职业图像集,我们发现使用非高加索标签生成的图像的职业错误分类率显著高于使用高加索标签生成的图像,且部分错误分类表明存在种族偏见。通过计算对不同身份群体预测的真实职业标签的概率标准差,我们测量了模型的公平性。使用这个公平性指标,我们发现在评估的视觉和语言模型之间存在显著差异。我们希望我们的研究展示了使用扩散方法进行公平性评估的潜在价值。
Nov, 2023