近似、适应、匿名（3A）：用于机器学习隐私保护训练数据发布的框架

AAAIJul, 2023

近似、适应、匿名（3A）：用于机器学习隐私保护训练数据发布的框架

Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving Training Data Release for Machine Learning

Tamas Madl, Weijie Xu, Olivia Choudhury, Matthew Howard

TL;DR本文提出了一种数据发布框架 ——3A (Approximate, Adapt, Anonymize)，它能够最大化机器学习的数据效用，同时保持差分隐私与高效性。

Abstract

The availability of large amounts of informative data is crucial for successful machine learning. However, in domains with sensitive information, the release of high-utility data which protects the privacy of individuals has proven challenging. Despite progress in →

machine learning differential privacy data release privacy-preserving synthetic data

发现论文，激发创造

基于人工智能的匿名化：在利用机器学习时保护个人数据隐私

人工智能的发展显著改变了人们的生活，但也对隐私和安全构成了重大威胁。因此，通过机器学习算法实现个人信息的智能保护已成为一项重要关注点。本文着重于个人数据隐私保护和匿名化的核心研究目标，通过使用机器学习的差分隐私保护算法，实现个人数据隐私保护和检测，并解决与隐私和个人数据保护相关的现有挑战，提出改进建议，分析影响数据集的因素以实现及时的个人数据隐私检测和保护。

Feb, 2024

上下文感知生成对抗隐私

引入一种新的基于生成式对抗网络（GANs）的上下文感知隐私框架 (GAP)，GAP 通过让数据持有者从数据集中学习隐私化策略，绕过了常见的挑战，即在提供可证明的隐私保护的同时保留数据集的实用性，具有很高的实用性并且能够应用在缺乏数据统计信息的情况下。

Oct, 2017

迭代训练程序添加差分隐私的一般方法

本文介绍了一种模块化方法，可以最小化对训练算法的更改，提供各种隐私机制的配置策略，并隔离和简化计算最终隐私保证的关键逻辑，以解决在隐私敏感数据集上训练机器学习模型所面临的实际挑战。

Dec, 2018

实用差分隐私的三种工具

在实际数据中进行差分隐私学习存在挑战：隐私保证难以解释，对私有数据进行的超参数调整会降低隐私预算，通常需要进行特殊的隐私攻击来测试模型的隐私性。本文提出了三种工具来使差分隐私机器学习更加实用：（1）可在训练前以集中方式进行的简单的健全性检查，（2）自适应裁剪边界来减少可调隐私参数的有效数量，（3）大批量训练可以提高模型性能。

Dec, 2018

为私有深度学习生成人工数据

利用生成对抗网络产生保护隐私的人造数据，限制潜在的隐私泄露，且成功地在此数据上训练和验证机器学习模型。

Mar, 2018

判别式对抗隐私：在神经网络中平衡准确性和成员隐私

本文提出了一种名为 “判别性对抗隐私”（DAP）的新型学习技术，该技术通过达到模型性能、速度和隐私之间的平衡来解决 DP 的局限性。DAP 依靠对抗训练，基于一种新的损失函数，该函数能够最小化预测误差并最大化 MIA 的误差。此外，我们引入了一种名为 “准确性隐私权”（AOP）的新指标来捕捉性能 - 隐私权衡。最后，为了验证我们的观点，我们将 DAP 与不同的 DP 情景进行比较，并从性能、时间和隐私保护角度分析结果。

Jun, 2023

基于生成对抗网络的数据合成

该研究提出了一种名为 table-GAN 的方法，使用生成对抗网络（GANs）合成伪造表格，用于保证数据匿名性和模型兼容性。实验证明，该方法在隐私和模型兼容性之间取得平衡，同时解决了数据泄露问题。

Jun, 2018

个人隐私与群体隐私：学习攻击匿名化

通过比较差分隐私和 l - 多样性数据的准确分类器推断私人属性，研究发现即使采用差分隐私，也能够推断出个体的隐私属性。

Nov, 2010

应用不同技术的机器学习模型对匿名数据的比较

通过使用基于值通用化层次结构的匿名化技术来模糊准标识符，广泛用于实现预设的隐私级别。本文研究了四种经典的机器学习方法，以分类为目的，分析了应用匿名化技术和为每个方法选择的参数的结果。使用广为人知的成年人数据集，在变化的 K 值、L - 多样性、T - 接近度和 delta 披露隐私方面部署这些模型的性能得到了研究。

May, 2023

一个隐私保护的无监督领域适应框架，用于临床文本分析

本文提出了一种隐私保护的领域自适应方法，使用差分隐私处理 GMM 模型中的源特征分布，避免了源数据隐私泄漏的风险，并且在医疗报告疾病标签分类任务中取得了可接受的性能。

Jan, 2022