振荡泄密:微调扩散模型能够放大生成的隐私风险
通过扩散模型并利用梯度指导的微调方法,我们提出了一种新的重建攻击方法,可通过泄露的梯度从图像处理系统中窃取私密的高分辨率图像。实验结果表明,我们的攻击方法能够成功恢复和窃取分辨率高达 512 x 512 像素的图像。此外,我们的攻击方法在图像重建的像素级准确性和时间效率方面明显优于其他攻击基准方法,并在一定程度上使差分隐私失效。
Jun, 2024
该研究介绍了一种新的会员推理攻击方法,针对稳定扩散计算机视觉模型,特别关注了由 StabilityAI 开发的高度复杂的稳定扩散 V2。我们的研究揭示了稳定扩散模型的输出存在的隐私漏洞,利用这些信息,我们设计了一种只需要反复查询受害模型的黑盒会员推理攻击方法。该研究对会员特征进行了多种测量,并讨论了最佳实践。通过 ROC AUC 方法评估了攻击的有效性,在推断会员信息方面成功率达到 60%。该论文对机器学习中的隐私和安全问题做出了贡献,并强调了对会员推理攻击实施强大防御措施的迫切性。我们的研究结果促使重新评估稳定扩散模型的隐私影响,并敦促从业者和开发者采取增强安全措施以防范此类攻击。
Nov, 2023
扩散模型中存在一种偏倚,来自信号泄漏的偏差概率分布与噪声概率分布不一致,造成训练和推理过程不匹配。我们展示了当模型针对特定风格进行调整时,信号泄漏偏倚尤为显著,导致次优的风格匹配。最近的研究尝试在训练过程中避免信号泄漏,而我们则展示了如何利用现有扩散模型中的信号泄漏偏倚,以实现对生成图像的更多控制。这使我们能够生成亮度更加多变的图像,并且更好地匹配所期望的风格或颜色。通过对信号泄漏在空间频率和像素域的分布进行建模,并在初始潜在空间中引入一个信号泄漏,我们生成的图像更好地匹配预期结果,无需任何额外的训练。
Sep, 2023
本文研究了图像扩散模型,如 DALL-E 2,Imagen 和 Stable Diffusion,发现它们从训练数据中记忆单个图像并在生成时发射此类图像,总结了此类模型的隐私风险和影响隐私保护培训的新进展。
Jan, 2023
在此篇文章中,我们提出了一种为私有扩散模型优化参数效率的微调策略,通过减少可训练参数的数量来增强隐私 - 效用平衡,从而在 DP 合成方面取得了最先进的性能,在广泛研究的数据集上明显超过了先前的基准(如 CelebA-64 数据集上的小隐私预算下,仅有 0.47M 个可训练参数,在先前最先进结果上实现了超过 35% 的改进)。
Jun, 2024
通过在精选数据集中插入有毒数据,利用多模式大型语言模型和文本引导的图像修复技术,本研究证实了在触发特定提示时,微调扩散模型可以生成受版权保护的内容,从而揭示了现行版权保护策略中潜在的陷阱,强调了对扩散模型滥用的加强审查和预防措施的必要性。
Jan, 2024
利用小型专用数据集微调大型预训练模型来生成特定应用模型是常见的做法。然而,我们揭示了一种新的漏洞:隐私后门攻击,通过该攻击,在微调受后门影响的模型时,训练数据的隐私泄露率会显著增加。我们在不同数据集和模型上进行了大量实验证明了这种攻击的广泛适用性和有效性,并通过不同微调方法和推断策略进行了多次消融研究以全面分析这个新威胁。我们的发现突出了机器学习社区的重要隐私问题,并呼吁重新评估使用开源预训练模型的安全协议。
Apr, 2024
为了保护数据的知识产权,在机器学习应用日益增多、且其成功与训练数据的质量密切相关的背景下,缺乏对未经授权的模型训练过程泄露数据的检测机制。本文针对表格数据领域,引入了一种名为局部分布偏移合成(LDSS)的新方法来检测训练分类模型所使用的泄露数据。LDSS 通过向拥有者的数据集注入一小部分具有局部类别分布偏移的合成数据,通过仅使用模型查询即可有效识别出训练于泄露和修改数据集的模型,且 LDSS 与朴素贝叶斯、决策树和随机森林等各种分类模型都兼容。在五个真实世界数据集上对七种分类模型进行了广泛实验,全面结果证实了 LDSS 的可靠性、稳健性、保真性、安全性和效率性。
Oct, 2023
通过实证研究探讨差分隐私参数选择的挑战,揭示了实际数据与重建目标之间领域转变的关系,提出了基于扩散模型的重建攻击方法,并证明了真实数据先验对于重建的影响,现有的重建边界不良模拟了数据先验的风险,并且扩散模型可以作为有效的隐私泄漏审计工具。
Mar, 2024
本研究针对生成扩散模型,发现攻击点在于编码器模块,并提出了 Score Distillation Sampling (SDS) 策略来保护图像并减少内存占用,同时通过最小化语义损失生成更自然的扰动,希望能够为恶意扩散模仿的防御做出贡献。
Oct, 2023