主题建模中的成员推断攻击和隐私

Mar, 2024

主题建模中的成员推断攻击和隐私

Membership Inference Attacks and Privacy in Topic Modeling

Nico Manzonelli, Wanrong Zhang, Salil Vadhan

TL;DR最近的研究表明，大型语言模型容易受到侵犯隐私的攻击，推断出训练数据的某些方面。然而，目前尚不清楚是否简单的生成模型（如主题模型）具有类似的弱点。本文提出了一种针对主题模型的攻击方法，可以自信地识别潜在狄利克雷分布中的训练数据成员。我们的结果表明，与生成神经模型相关的隐私风险并不仅限于大型模型。此外，为了减轻这些弱点，我们探讨了差分隐私的主题模型。我们提出了一个框架，将差分隐私词汇选择作为预处理步骤纳入私有主题模型，并展示它在保护隐私方面的改进，对实际效用影响较小。

Abstract

Recent research shows that large language models are susceptible to privacy attacks that infer aspects of the training data. However, it is unclear if simpler generative models, like topic models, share similar v

privacy attacks generative models topic models latent dirichlet allocation differentially private topic modeling

发现论文，激发创造

SoK: 降低 Fine-tuned 语言模型对成员推断攻击的脆弱性

自然语言处理模型在最近几年中经历了显著的提升，其上已建立了许多应用。然而，这些应用中许多需要在定制的专有数据集上对通用基础模型进行微调，这些微调数据往往含有个人或敏感信息，增加了隐私风险。本研究首次系统回顾了大型自然语言处理模型在成员推理攻击方面的脆弱性，整理了影响这种攻击脆弱性的各种因素以及不同防御策略的有效性。研究表明，某些训练方法能显著降低隐私风险，其中差分隐私和低秩适配器的组合在保护隐私方面效果最好。

Mar, 2024

扩散模型的成员推断

本文研究了针对敏感数据的扩散模型的成员推理攻击，提出了基于损失和似然的两种攻击方法，并在各种隐私敏感数据相关的数据集上评估了攻击效果和影响攻击性能的因素。此外，还评估了我们攻击方法在差分隐私的扩散模型上的性能。

Jan, 2023

对语言分类模型的成员推断攻击的改进

人工智能系统在日常生活中普遍存在，在零售、制造、健康等许多领域都有应用。随着人工智能采用的增加，相关风险也被识别出来，其中包括对用于训练模型的数据的隐私风险。评估机器学习模型的隐私风险对于做出有知识决策，是否使用、部署或共享模型至关重要。对隐私风险评估的常见方法是运行一个或多个已知的攻击来评估攻击的成功率。我们提出了一个新颖的框架来运行针对分类模型的成员推理攻击。我们的框架利用集合方法，针对数据的不同子集生成许多专门的攻击模型。我们证明这种方法在经典和语言分类任务中比单个攻击模型或每个类标签的攻击模型都具有更高的准确性。

Oct, 2023

生成分布对生成模型的成员推断攻击足够

通过仅利用目标生成模型的生成分布和辅助非成员数据集，我们提出了对各种生成模型（如生成对抗网络、变分自编码器、隐式函数和新兴的扩散模型）的第一个广义成员推断攻击，验证了所有生成模型都对我们的攻击易受攻击，我们呼吁设计和发布生成模型时要注意此类隐私泄漏风险。

Oct, 2023

表格数据合成模型成员推断攻击的实证研究

该研究探讨了针对表格数据综合的成员推理攻击，并发现该攻击可能会严重威胁四种最先进的表格数据综合模型，但是通过使用差分隐私训练算法 DP-SGD，可以在一定程度上减轻此威胁。

Aug, 2022

隐私保护生成框架对抗成员推断攻击

本文提出了一种隐私保护的生成模型，通过变分自编码器 (VAE) 的信息提取和数据生成能力，生成符合差分隐私要求的合成数据来防御成员推理攻击，并进行了实验验证。

Feb, 2022

采样攻击：通过重复查询放大成员推断攻击

该研究关注于机器学习模型中有关成员推断攻击的问题，并提出了一种新的会员推断技术 —— 抽样攻击，进一步研究了两种最近的攻击模型以及针对这些攻击的防御方法，最终发现在预测输出时的输出微扰技术是一种简单易行的隐私保护方法，对预测结果的影响较小。

Sep, 2020

机器学习模型增强攻击下的成员推断攻击

通过成员推理攻击作为审核工具，我们提出了一个综合的假设检验框架，不仅能够以一致的方式正式表达先前的工作，还可以设计新的成员推理攻击，使用参考模型来实现任意误报率的显著更高的功率（真正的阳性率），并解释为什么不同的攻击效果不同，并最小化攻击不确定性到数据点的存在或缺失的一个比特秘密。

Nov, 2021

使用成员推断攻击量化掩码语言模型的隐私风险

使用类似于似然比假设检验的成员推理攻击方法，我们发现面向医疗笔记的掩模语言模型泄漏训练数据的隐私风险非常高，表现为先前攻击的 AUC 从 0.66 提高到 0.9 级别，并且在低误差区域有显着提高：在 1％误报率的情况下，攻击效果比先前攻击提高了 51 倍。

Mar, 2022

针对机器学习模型的成员推断攻击

本文通过对机器学习模型泄露个人数据记录的数量进行定量研究，并聚焦于基本的成员推理攻击，利用对手方机器学习技术来训练自己的推理模型，识别目标模型在训练和未训练输入上的预测差异，我们评估了这种推理技术对各种分类模型的影响，包括敏感医院出院数据集，发现这些模型容易受到成员攻击，并探讨影响泄漏的因素并评估缓解策略。

Oct, 2016