机器学习模型的认证数据去除

ICMLNov, 2019

Certified Data Removal from Machine Learning Models

Chuan Guo, Tom Goldstein, Awni Hannun, Laurens van der Maaten

TL;DR研究数据管理如何删除机器学习模型中的数据，定义了一个可靠的数据删除机制并在实验中验证其可行性。

Abstract

Good data stewardship requires removal of data at the request of the data's owner. This raises the question if and how a trained machine-learning model, which implicitly stores information about its training data

data stewardship machine-learning model certified removal linear classifiers learning settings

发现论文，激发创造

机器学习模型中的数据近似删除

本文提出了一种新的线性模型和逻辑模型的近似删除方法，其计算成本在特征维度 d 上是线性的，并且独立于训练数据数量 n。我们还开发了一种新的特征注入测试方法，以评估从机器学习模型中删除数据的彻底性。

Feb, 2020

高效机器遗忘的随机重标记

提出了一种机器去学习的方案，针对个人隐私数据撤销和相关数据管理条例提出了高效机制，随机重标记的未学习方案适用于通用的监督学习算法，并且进一步开发了一种基于概率分布相似性、较少限制的删除认证方法，这种方法基于逻辑回归分类器。

May, 2023

机器学习中的数据删除：让人工智能忘掉您

研究了如何在不影响模型质量的情况下，有效地删除机器学习模型中的个人数据，针对 k-means 聚类模型，提出了两个可靠且高效的删除算法，平均删除效率提高了 100 倍以上。

Jul, 2019

遗忘机器学习

该研究论文详细介绍了新颁布的 GDPR 法对机器学习模型隐私保护的重要性，针对深度神经网络模型容易遭受信息泄漏攻击的问题提出了 Unlearning 和 Amnesiac Unlearning 两种数据删除方法，实验证明这两种方法可行、安全。

Oct, 2020

机器取消学习：解决方案与挑战

机器遗忘是一项关键技术，用于选择性地移除训练数据点对训练模型的影响。本文提供了机器遗忘研究的全面分类和分析，并回顾了最新的解决方案，讨论了其优势和限制，并提出了未来的发展方向，以推动机器遗忘作为一项必要的可信和自适应机器学习能力。

Aug, 2023

学习如何忘却：机器遗忘调查

该调查提供了机器遗忘技术的简明评估，概述了准确和近似方法、可疑攻击和验证方法，并比较了每种方法的优点和局限性，评估了它们的性能，突出了挑战性的需求。提供强大的非 IID 删除模型以缓解公平性问题，并指出该领域未来的研究方向，旨在为寻求在 ML 系统中提供隐私和平等的研究人员和从业者提供有价值的资源。

May, 2023

删除我的账户：数据删除对机器学习分类器的影响

研究论文通过不同实验和假设，深入分析了使用《一般数据保护条例》中的《被遗忘权》对机器学习模型在分类任务中的性能影响，并揭示了数据删除的数量、数据集特征和删除偏差以及用户行为假设对机器学习数据质量造成的影响。

Nov, 2023

公平的机器遗忘：数据去除与减轻偏差

在本研究中，我们提出了第一个可以证明并高效地消除数据实例并保持公平性的机器遗忘方法。通过理论结果和对真实世界数据集的广泛实验，我们展示了我们的方法在消除数据实例的同时保持公平性的功效。

Jul, 2023

AI 模型卸载：方法与选择

本文介绍了一种可能有效的机器学习技术 ——model disgorgement，在确保数据道德和知识产权保护的前提下，去除训练集数据的缺陷并消除对训练模型带来的不良影响。

Apr, 2023

机器学习退训对隐私的危害

本文研究机器取消学习对隐私的影响，并通过提出新型会员推理攻击来论证了取消学习会留下数据迹象，从而产生意外隐私风险。我们提出了四种方法来减轻这些隐私风险，包括发布预测标签，温度缩放和差分隐私。

May, 2020