机器学习预处理技术的统计隐私保障

ICMLSep, 2021

机器学习预处理技术的统计隐私保障

Statistical Privacy Guarantees of Machine Learning Preprocessing Techniques

Ashly Lau, Jonathan Passerat-Palmbach

TL;DR该论文旨在弥补当前机器学习流程中，尤其是数据预处理阶段中存在的隐私保护鸿沟，该研究使用一种基于统计学方法的隐私侵犯检测框架来实验性地测量机器学习管线的隐私级别，并应用这一新创建的框架来表明针对不平衡数据的重抽样技术会导致模型泄露更多隐私，强调了需开发私有的预处理技术。

Abstract

differential privacy provides strong privacy guarantees for machine learning applications. Much recent work has been focused on developing differentially private models, however there has been a gap in other stag

differential privacy machine learning preprocessing privacy violation imbalanced datasets

发现论文，激发创造

通过非私有预处理实现可证明的隐私

通过引入 Smooth DP 和预处理算法的有界敏感性，提出了一个评估非私有数据依赖预处理算法额外隐私成本的通用框架，为多个数据依赖预处理算法（例如数据插补、量化、去重和主成分分析）与多个 DP 算法的组合提供明确的整体隐私保证。

Mar, 2024

差分隐私和机器学习：调查和评论

本文讨论了机器学习和差分隐私之间的相互作用，即隐私保护机器学习算法和基于学习的数据发布机制，探讨了可以通过差分隐私进行学习的内容以及差分隐私算法的损失函数上限。同时提出了一些开放性问题，包括如何整合公共数据，如何处理私人数据集中的缺失数据，以及当观察样本数量任意增大时，是否可以实现差分隐私机器学习算法而无需牺牲相关算法的效用成本。

Dec, 2014

深度学习与差分隐私

本论文提出新的算法技术，包括隐私成本的细化分析，并在差分隐私框架下进行。实验结果表明：我们可以在较小的隐私成本下训练具有非凸目标的深度神经网络，而且在软件复杂性、训练效率和模型质量上具有可管理的成本。

Jul, 2016

实用差分隐私的三种工具

在实际数据中进行差分隐私学习存在挑战：隐私保证难以解释，对私有数据进行的超参数调整会降低隐私预算，通常需要进行特殊的隐私攻击来测试模型的隐私性。本文提出了三种工具来使差分隐私机器学习更加实用：（1）可在训练前以集中方式进行的简单的健全性检查，（2）自适应裁剪边界来减少可调隐私参数的有效数量，（3）大批量训练可以提高模型性能。

Dec, 2018

惩罚约束似然的差分隐私模型选择

本文主要研究如何将差分隐私的保护机制融入多元线性回归建模中，并提出了一种基于惩罚最小二乘估计和随机化的算法来实现此目标，该算法在最优化时更加敏感于参数的选择，但保证了与非差分隐私的程序同样的一致性。

Jul, 2016

量化差分隐私机器学习的碳排放

本研究调查了差分隐私对机器学习算法性能和碳足迹的影响，并提供了帮助选择合适噪音水平的指导，以平衡所需的隐私级别和减少碳排放。

Jul, 2021

解锁差分隐私图像分类的准确度与公平性

预训练的基础模型经差分隐私微调可在下游任务中实现接近非隐私分类器的准确性，并且在四个数据集中实现与非隐私技术的准确性相差不多，包括两个医学成像基准数据集。此外，我们的隐私医学分类器在不同人口群体之间没有更大的性能差异。此里程碑使得差分隐私训练成为一项实用且可靠的技术，有潜力广泛应用于敏感数据的安全机器学习训练，同时保护个人隐私。

Aug, 2023

迭代训练程序添加差分隐私的一般方法

本文介绍了一种模块化方法，可以最小化对训练算法的更改，提供各种隐私机制的配置策略，并隔离和简化计算最终隐私保证的关键逻辑，以解决在隐私敏感数据集上训练机器学习模型所面临的实际挑战。

Dec, 2018

深度学习差分隐私模型发布

提出了一种基于集中差分隐私的神经网络训练方法，通过动态隐私预算分配和新的优化技术来提高模型准确性、训练效率和隐私保护能力。

Apr, 2019

经验机器学习的差分隐私算法

本文提出了一种基于差分隐私的算法，用于处理实际应用中的分类问题及测试过程中的评估，包括特征选择和 ROC 曲线。

Nov, 2014