多方机器学习中数据集属性泄露

Jun, 2020

Leakage of Dataset Properties in Multi-Party Machine Learning

Wanrong Zhang, Shruti Tople, Olga Ohrimenko

TL;DR该研究确认了安全多方机器学习会导致数据的属性泄露，包括敏感属性和整个数据集的属性，即使敏感属性未被训练，说明存在相关模型。

Abstract

secure multi-party machine learning allows several parties to build a model on their pooled data to increase utility while not explicitly sharing data with each other. We show that such multi-party computation can cause leakage of global dataset properties between the parties even when

secure multi-party machine learning privacy leakage sensitive attributes population-level properties correlation models

发现论文，激发创造

多方机器学习中的污染攻击及其缓解

本文讨论了在多方数据联合训练机器学习模型时，可能存在一方恶意注入污染数据导致模型性能下降的问题，并提出了采用对抗训练的方法可以避免此问题，同时保证各方数据的隐私安全。

Jan, 2019

机器学习模型中的数据更新信息泄露

我们考虑机器学习模型在更新数据集后重新训练以获取最新信息或反映分布变化的情况。我们调查是否可以从训练数据中推断出有关这些更新的信息（例如，记录的属性值的更改）。我们提出了基于原始模型和更新模型之间预测置信度差异的攻击方法，并根据两个公共数据集和多层感知器以及逻辑回归模型验证了我们的攻击方法。我们发现模型的两个快照相对于仅访问更新后的模型而言，会导致更高的信息泄漏。此外，我们观察到罕见属性值的数据记录更容易受到攻击，这指向了更新环境下隐私攻击的不同脆弱性。当将具有相同原始属性值的多个记录更新为相同的新值时（即重复更改），攻击者更有可能正确猜测更新后的值，因为重复更改在训练模型上留下了更大的痕迹。这些观察结果表明机器学习模型在更新环境下容易受到属性推理攻击的威胁。

Sep, 2023

协作学习中的意外特征泄漏利用

合作式机器学习及联邦学习等技术让多个参与者通过本地训练和定期更新模型来建立一个联合模型，但我们展示了这些更新泄露了关于参与者训练数据的信息并开发了被动和主动攻击来利用泄露，我们在各种任务，数据集和学习配置中评估我们的攻击，并分析其局限性和可能的防御。

May, 2018

机器学习模型泄漏研究：对合成训练数据的探索

对于一个预测个人或家庭在接下来两年内搬迁的机器学习模型的攻击进行研究，该攻击假设攻击者可以查询模型以获取预测结果，并且模型的训练数据的边际分布公开可用。攻击还假设攻击者已获得了某些目标个体的非敏感属性的值，攻击的目标是推断出这些目标个体的敏感属性值。我们探讨了在训练模型时用合成数据替换原始数据对攻击者成功推断敏感属性的影响。

Oct, 2023

两方分裂学习中的标签泄露和保护

本研究探索了在双方分别拥有数据的场景下，一方能否窃取另一方的标签信息，并提出了量化泄露度的隐私损失度量、防御方法和基于随机扰动的修复技术 $ exttt {Marvell}$。实验证明，该技术具有更好的隐私效果和使用效用权衡。

Feb, 2021

真相血清：毒化机器学习模型揭示它们的秘密

介绍了一种新的针对机器学习模型的攻击方式，即通过污染训练数据集，导致模型泄露属于其他用户的私人数据。该攻击包括成员推断、属性推断和数据提取等多方面，可能会危及多方面的用户隐私。

Mar, 2022

机器学习中的隐私风险：分析与过度拟合的关联

本篇论文探讨了机器学习算法在敏感数据应用时对隐私的威胁，分析了过拟合和影响因素对攻击者从训练数据中提取信息的能力的影响，并研究了成员推断和属性推断之间的联系。

Sep, 2017

成员推断攻击的数据和模型依赖性

该论文分析了成员推理攻击的成功因素，发现数据集和训练模型的多个属性共同影响攻击成功率，提出使用这些属性作为正则化器以保护机器学习模型免受攻击。经实验证明，该方法可将攻击准确率降低多达 25％，而不影响机器学习模型的预测效果。

Feb, 2020

机器学习管道中的信息泄漏

机器学习（ML）提供了强大的预测建模工具，然而，如果不正确实施和评估，ML 流程可能会出现泄漏问题，导致过于乐观的性能估计并且无法泛化到新数据，本文旨在拓展对于在设计、实施和评估 ML 流程中导致泄漏的原因的理解，以具体示例说明，提供了各种类型的泄漏的综合概述和讨论。

Nov, 2023

验证机器学习训练数据的分布属性

机器学习（ML）的成功伴随着对其可信度的日益关注。为了确保模型训练数据具有某些敏感属性的期望分布特性，一些司法管辖区正在制定 ML 监管框架。我们提出了财产证明的概念，允许证明者（例如，模型训练者）向验证者（例如，客户）证明训练数据的相关分布特性，而不泄露数据。我们提出了一种有效的混合财产证明方法，将属性推断与密码机制相结合。

Aug, 2023