PANORAMIA: 无需重新训练的机器学习模型隐私审计

Feb, 2024

PANORAMIA: 无需重新训练的机器学习模型隐私审计

PANORAMIA: Privacy Auditing of Machine Learning Models without Retraining

Mishaal Kazmi, Hadrien Lautraite, Alireza Akbari, Mauricio Soroco, Qiaoyue Tang...

TL;DR我们介绍了一种针对机器学习模型的隐私审计方案，该方案利用生成的数据作为 “非成员” 进行成员推断攻击，量化了大规模机器学习模型的隐私泄露情况，无需控制训练过程或模型重新训练，只需访问一部分训练数据。为了证明其适用性，我们在多个机器学习领域进行了审计方案评估，涵盖图像和表格数据分类到大规模语言模型。

Abstract

We introduce a privacy auditing scheme for ml models that relies on membership inference attacks using generated data as "non-members". Th

privacy auditing ml models membership inference attacks panoramia privacy leakage

发现论文，激发创造

机器学习模型隐私风险的系统评估

本文研究了机器学习模型的隐私风险和成员推理攻击，提出了一种基于预测熵修改的推理攻击和一个新的隐私风险得分指标，同时对已有的防御机制进行了基准攻击，实验结果表明个体样本的隐私风险得分分布差异很大，同时确定源风险的主要因素与模型敏感性、综合误差和特征嵌入有关系。

Mar, 2020

深度学习模型中实施成员推断攻击的方法

现代机器学习（ML）生态系统提供了大量的 ML 框架和代码库，可以极大地促进 ML 模型的开发。本研究考虑了恶意 ML 提供者供应模型训练代码给数据持有者的情况，该提供者无法访问训练过程，只能以黑盒查询方式访问结果模型。我们展示了一种新形式的成员推断攻击，比以往的攻击更强大，使对手能够可靠地取消识别所有训练样本，并且被攻击的模型仍然保持与未受损对照模型相当的性能。此外，我们还展示了被污染的模型可以在常见的成员隐私审核下有效伪装被放大的成员泄漏，只有对手知道的一组秘密样本才能揭示。总体而言，我们的研究不仅指出了最坏情况下的成员隐私泄漏，还揭示了现有隐私审核方法的一个常见问题，需要未来努力重新思考机器学习模型中的隐私审核实践。

Jul, 2024

使用对抗正则化的成员隐私机器学习

介绍了一种隐私机制，用于训练机器学习模型以保证隐私，并使用敌对训练算法最小化模型的分类损失和最大的成员推断攻击，从而提高模型的鲁棒性和泛化性能，该机制在深度神经网络上的测试结果表明，可以在可接受的分类误差下显著降低成员推断攻击的风险。

Jul, 2018

深度学习的实际成员隐私理解

我们应用最先进的成员推理攻击方法，系统地测试了对大型图像分类模型进行微调时的实际隐私漏洞，重点在于了解使其易受成员推理攻击的数据集和样本的特性。就数据集的特性而言，我们发现数据集中每个类别的示例数量与成员推理攻击的脆弱性之间存在强烈的幂律依赖性，通过攻击的真阳率在低假阳率下衡量。对于单个样本来说，在训练结束时较大的梯度与成员推理攻击的脆弱性存在强相关性。

Feb, 2024

机器学习模型增强攻击下的成员推断攻击

通过成员推理攻击作为审核工具，我们提出了一个综合的假设检验框架，不仅能够以一致的方式正式表达先前的工作，还可以设计新的成员推理攻击，使用参考模型来实现任意误报率的显著更高的功率（真正的阳性率），并解释为什么不同的攻击效果不同，并最小化攻击不确定性到数据点的存在或缺失的一个比特秘密。

Nov, 2021

ML-Leaks: 对机器学习模型进行模型和数据无关的成员资格推断攻击和防御

本文提出了针对机器学习服务的会员推理攻击的可能性，并放宽了先前攻击假设中的关键假设，说明这些攻击的适用性广泛且代价低廉，从而比先前认为的更具严重性；提出了对抗此类攻击的第一种有效机制，并保持模型的高效性。

Jun, 2018

对语言分类模型的成员推断攻击的改进

人工智能系统在日常生活中普遍存在，在零售、制造、健康等许多领域都有应用。随着人工智能采用的增加，相关风险也被识别出来，其中包括对用于训练模型的数据的隐私风险。评估机器学习模型的隐私风险对于做出有知识决策，是否使用、部署或共享模型至关重要。对隐私风险评估的常见方法是运行一个或多个已知的攻击来评估攻击的成功率。我们提出了一个新颖的框架来运行针对分类模型的成员推理攻击。我们的框架利用集合方法，针对数据的不同子集生成许多专门的攻击模型。我们证明这种方法在经典和语言分类任务中比单个攻击模型或每个类标签的攻击模型都具有更高的准确性。

Oct, 2023

针对机器学习模型的成员推断攻击

本文通过对机器学习模型泄露个人数据记录的数量进行定量研究，并聚焦于基本的成员推理攻击，利用对手方机器学习技术来训练自己的推理模型，识别目标模型在训练和未训练输入上的预测差异，我们评估了这种推理技术对各种分类模型的影响，包括敏感医院出院数据集，发现这些模型容易受到成员攻击，并探讨影响泄漏的因素并评估缓解策略。

Oct, 2016

采样攻击：通过重复查询放大成员推断攻击

该研究关注于机器学习模型中有关成员推断攻击的问题，并提出了一种新的会员推断技术 —— 抽样攻击，进一步研究了两种最近的攻击模型以及针对这些攻击的防御方法，最终发现在预测输出时的输出微扰技术是一种简单易行的隐私保护方法，对预测结果的影响较小。

Sep, 2020

主题建模中的成员推断攻击和隐私

最近的研究表明，大型语言模型容易受到侵犯隐私的攻击，推断出训练数据的某些方面。然而，目前尚不清楚是否简单的生成模型（如主题模型）具有类似的弱点。本文提出了一种针对主题模型的攻击方法，可以自信地识别潜在狄利克雷分布中的训练数据成员。我们的结果表明，与生成神经模型相关的隐私风险并不仅限于大型模型。此外，为了减轻这些弱点，我们探讨了差分隐私的主题模型。我们提出了一个框架，将差分隐私词汇选择作为预处理步骤纳入私有主题模型，并展示它在保护隐私方面的改进，对实际效用影响较小。

Mar, 2024