多方数据隐私学习

Feb, 2016

Learning Privately from Multiparty Data

Jihun Hamm, Paul Cao, Mikhail Belkin

TL;DR本文提出了一种如何从不同方的私有数据中构建准确的差分隐私全局分类器的方法，即通过从辅助非标记数据创建标记数据，然后训练全局的差分隐私分类器来转移本地分类器集成的 “知识”，我们通过从集成估计的类概率加权的新风险进行了解决。我们的解决方案相对于非私有解决方案具有 O (ε^-2M^-2) 的广义误差界限，其中 M 为参与方的数量。

Abstract

Learning a classifier from private data collected by multiple parties is an important problem that has many potential applications. How can we build an accurate and differentially private global →

classifier private data local classifiers differential privacy ensemble

发现论文，激发创造

通过密度估计改进异构模型重用

本文探讨了多方学习，旨在利用不同参与者的私有数据学习模型。作者提出通过估计本地数据密度并设计辅助模型来重复使用本地分类器，以解决不同参与方之间的潜在样本选择偏差问题。作者还提出了多方交叉熵损失，以解决一些本地模型训练不足的情况。实验结果表明，该方法在合成和基准数据上都优于其他方法。

May, 2023

使用公共数据的最优局部私有非参数分类

在本研究中，我们通过公共数据辅助的非交互式 LDP（局部差分隐私）学习，重点研究非参数分类问题。在后验漂移假设下，我们首次推导了在 LDP 约束下的极小极大收敛速度。然后，我们提出了一种新颖的方法，即局部隐私分类树，它达到了极小极大收敛速度。此外，我们设计了一种数据驱动的修剪程序，避免了参数调整，并产生了一个快速收敛的估计器。对合成和真实数据集进行的全面实验证明了我们提出方法的卓越性能。无论是我们的理论发现还是实验结果都证明了与私有数据相比，公共数据的有效性，并提出了优先考虑非私有数据收集的实际建议。

Nov, 2023

训练知道自己不知道什么的私有模型

通过研究选择性分类器在差分隐私约束下的效果，探讨深度学习模型的可靠性及隐私泄漏问题，发现最近的一种基于现成的深度学习模型生成检查点的方法在差分隐私下更为合适，使用差分隐私不仅会降低模型的效能，而且在隐私预算降低时需要付出相当大的覆盖成本。

May, 2023

数据流的差分隐私集成分类器

该论文提出了一种基于隐私保护的集成学习方法，旨在应对连续数据流且涉及数据漂移的场景，该方法可以应对不断增长的数据流以及模型的升级更新，并适用于不同类型的预训练隐私分类 / 回归模型。在实际和模拟数据集上进行的实验表明，在不同的隐私、概念漂移和数据分布设置下，该方法表现优异。

Dec, 2021

非私有和私有数据的速率最优分类

在本文中，我们重新审视了分类的经典问题，但施加了隐私约束。在此约束下，无法直接观察原始数据（X1，Y1），…，（Xn，Yn），并且所有的分类器都是合适的本地差分隐私机制的随机结果的函数。统计学家可以自由选择这种隐私机制的形式，在这里，我们向每个特征向量 Xi 的位置和其标签 Yi 的离散化添加了拉普拉斯分布的噪声。分类规则是经过隐私保护的版本的良好研究分区分类规则。除了标准的 Lipschitz 和边距条件之外，还引入了一种新的特征，通过该特征可以计算出分类误差概率的精确收敛速率，无论是针对非私有数据还是私有数据。

Dec, 2023

基于半监督知识迁移的深度学习私有训练数据共享

本研究提出了一种称为私有教师集成（PATE）的方法，通过多个使用不同数据集训练的模型进行加密学习，从而实现对模型训练数据的隐私保护，达到最新的隐私 / 效用平衡，且适用于包括非凸模型在内的任何模型。

Oct, 2016

隐私保护预测

探讨在分类和回归等多种模型中，为实现个体预测隐私保护所需的成本，以及通过训练多个模型并使用标准的聚合技术来预测，以降低聚合步骤引入的开销，并建立所有不同隐私预测算法的强广义保证，从而研究机器学习中差分隐私的最优样本调整量。

Mar, 2018

使用差分隐私原型联邦推荐

我们提出了一种新的联邦学习方法，以保护敏感数据领域（如医学或银行业）中的用户隐私，同时用于推荐系统，不提取原始数据、用户统计数据或个人偏好信息，通过构建一组原型，推断全局行为模式，提供差分隐私保证，并实现局部模型的本地适应，取得了远优于传统中心计算模型、准确度高且具备可证明隐私保障的推荐效果。

Mar, 2020

隐私保护联邦学习的混合方法

本文提出了一种结合差分隐私和安全多方计算的联邦学习方法，在保证训练和最终模型的隐私性的同时，也能够保持较高的预测准确率，这个系统不仅能应用于多种机器学习模型的训练，而且在实验上验证了它的优越性。

Dec, 2018

使用差分隐私合成双胞胎数据在分布式数据中进行合作学习

通过共享差分私有合成数据，利用合成数据集进行协同学习可以帮助不同方参与者更准确地估计目标统计数据，尤其对包含代表性不足群体数据的参与者，共享合成数据特别有助于做更好的分析。

Aug, 2023