黑盒解密：基于置信度的模型反演攻击与分布转移

Feb, 2024

黑盒解密：基于置信度的模型反演攻击与分布转移

Breaking the Black-Box: Confidence-Guided Model Inversion Attack for Distribution Shift

Xinhao Liu, Yingzhao Jiang, Zetao Lin

TL;DR本文提出了一种称为 CG-MI 的置信度引导模型反演攻击方法，利用预训练的可公开获取的生成对抗网络（GAN）的潜在空间作为先验信息和无梯度优化器，在不同数据分布的黑盒设置中实现了高分辨率的模型反演攻击。实验证明，我们的方法在 Celeba 和 Facescrub 的不同分布设置中，比 SOTA 黑盒 MIA 的攻击效果提高了超过 49％和 58％。此外，我们的方法能够生成与白盒攻击产生的质量相当的高质量图像。我们的方法为黑盒模型反演攻击提供了实用而有效的解决方案。

Abstract

model inversion attacks (MIAs) seek to infer the private training data of a target classifier by generating synthetic images that reflect the characteristics of the target class through querying the model. However, prior studies have relied on full access to the target model, which is

model inversion attacks confidence-guided model inversion high-resolution mias data distributions black-box setting

发现论文，激发创造

知识增强的分布式模型反演攻击

本文提出了一种基于 Inversion-specific GAN 的新型模型反演攻击方法，通过训练鉴别器不仅区分真伪样本，而且包括目标模型提供的软标签，进而为每个目标类建模私人数据分布，成功率比先前的攻击方式有所提高（150%），而且普适于多种数据集和模型。

Oct, 2020

基于强化学习的黑盒模型逆向攻击

本研究提出了一种基于强化学习的黑盒模型反演攻击方法，利用生成对抗网络（GANs）和 Markov 决策过程来搜索潜在空间以构建训练机器学习模型所用的隐私数据，并且在各种数据集和模型上取得了最先进的攻击性能。

Apr, 2023

基于多智能体强化学习的分布式黑盒模型逆推攻击

基于生成对抗网络的模型逆向攻击旨在通过在潜在空间中搜索代码来从复杂深度学习模型中恢复私有训练数据。本文提出了一种新颖的分布式黑盒模型逆向攻击方法，通过构建概率潜在空间来搜索目标隐私数据，相比现有方案具有更好的攻击准确性和性能。

Apr, 2024

插入播放攻击：朝向强韧与灵活的模型反演攻击

本文提出了 Plug & Play 攻击方法，利用生成式对抗网络攻击目标分类器，实现了更具鲁棒性、更灵活和更具潜力的 MIAs，同时揭示了高质量、揭示敏感类别特征的图像可能性。

Jan, 2022

基于伪标签引导的条件生成对抗网络模型反演攻击

提出一种基于条件 GAN 的 PLG-MI 攻击策略，通过引入伪标签将搜索空间解耦，采用最大间隔损失改善目标分类的子空间搜索，实验表明本文方法攻击成功率和可视化质量效果明显优于当前先进攻击方法，特别是在大型分布转移下表现出 2~3 倍的优势。

Feb, 2023

一次难以防御的攻击：通过条件扩散模型实现仅凭标签进行的模型推断

本文提出了在标签黑盒情况下使用条件扩散模型的新型 MIA 方法，可以在不需要额外优化的情况下恢复目标的精确样本，并将 Learned Perceptual Image Patch Similarity 作为评估度量之一进行系统定量和定性评估，实验证明，该方法可以在标签黑盒情况下生成与目标相似且准确的数据，并且优于先前方法的生成器

Jul, 2023

神秘揭露者：针对深度神经网络的生成模型反演攻击

本文介绍了一种新型攻击方法 —— 生成模型反演攻击，它可以显著地提高逆转深度神经网络的准确率，攻击者使用部分公共信息学习分布先验，引导逆转过程，并且通过实验证明了差分隐私在该攻击下的防御效果有限。

Nov, 2019

用对抗性样本提升模型反演攻击

本文提出了一种新的训练范式，通过引入语义损失函数和注入对抗样本来增加训练数据的多样性，从而使攻击模型在数据重建过程中更加关注原始数据的类相关部分，进而提高现有学习攻击的性能。

Jun, 2023

生成分布对生成模型的成员推断攻击足够

通过仅利用目标生成模型的生成分布和辅助非成员数据集，我们提出了对各种生成模型（如生成对抗网络、变分自编码器、隐式函数和新兴的扩散模型）的第一个广义成员推断攻击，验证了所有生成模型都对我们的攻击易受攻击，我们呼吁设计和发布生成模型时要注意此类隐私泄漏风险。

Oct, 2023

反推攻击图神经网络模型

该论文对 GNNs 进行了系统研究，提出了 GraphMI 方法用于推断私有训练数据中的离散边缘，建议更有效的隐私防御措施。

Sep, 2022