针对提升隐私保护的机器学习稳定性技术的新型综述

May, 2024

针对提升隐私保护的机器学习稳定性技术的新型综述

A Novel Review of Stability Techniques for Improved Privacy-Preserving Machine Learning

Coleman DuPlessie, Aidan Gao

TL;DR研究了提高模型稳定性的各种技术，从而最小化机器学习中隐私化的负面影响。

Abstract

machine learning models have recently enjoyed a significant increase in size and popularity. However, this growth has created concerns about dataset privacy. To counteract data leakage, various →

machine learning models dataset privacy data leakage privacy frameworks stability enhancement

发现论文，激发创造

提升机器学习数据隐私保护的最新方法 —— 综述

探讨隐私保护机器学习（PPML）的兴起及其对各领域的巨大影响，强调在机器学习框架中保护隐私所面临的挑战，讨论当前研究努力，旨在最小化隐私敏感信息和增强数据处理技术，通过应用密码学方法、差分隐私和可信执行环境等隐私保护技术，保护机器学习训练数据防止隐私侵犯，尤其关注 PPML 在敏感领域中的应用及其在保护机器学习系统隐私与安全方面的关键作用。

Feb, 2024

噪音的悖论：联邦学习中提高泛化、稳定性和隐私性的噪音注入机制的实证研究

在数据为中心的时代里，随着机器学习对个人信息的依赖越来越大，对隐私和道德数据处理的关切也越来越多。本实证研究探讨了联邦学习框架中深度学习模型在存在加性噪声的情况下的隐私、泛化和稳定性。我们的主要目标是提供一些衡量这些模型的泛化、稳定性和保护隐私能力的策略，并进一步改进它们。为此，我们在集中化和联邦学习设置下探索了五种不同噪声水平的噪声注入机制。由于模型复杂性是训练和评估期间深度学习模型的泛化性和稳定性的关键组成部分，我们对三种卷积神经网络架构进行了比较分析。本文引入了信噪比（SNR）作为噪声注入模型的隐私和训练准确性之间权衡的定量度量，旨在寻找提供最佳隐私和准确性的噪声水平。此外，我们定义了稳定性代价和无序性代价这两个概念，以加强保护隐私的深度学习的系统性研究，为增强隐私而不损害性能的噪声注入策略提供了贡献。我们的研究揭示了隐私、泛化和稳定性之间微妙的平衡关系，促进对基于噪声正则化机器学习的影响的深入理解。通过将噪声作为正则化和隐私增强的工具，我们旨在为开发强大的、注重隐私的算法做出贡献，确保人工智能驱动的解决方案将效用和隐私优先考虑。

Nov, 2023

关于机器学习系统中个人信息的保护：两种最近方法

该论文在 Saltzer 和 Schroeder 1970 年代的经验教训下，回顾了最近关于隐私的两篇研究文章，并探讨了新技术在保护机器学习所依赖的数据隐私方面的应用。

Aug, 2017

数据混淆实现隐私保护机器学习

该论文提出了一种新的通用方法 —— 混淆函数，可在不泄露机器学习训练数据的前提下保护其中的隐私信息，并成功地抵御了四种现有的机器学习隐私攻击。

Jul, 2018

当机器学习遇到隐私：一份调查与展望

本文对机器学习与隐私问题进行了综述，涵盖了三种交互方式：(i) 私有机器学习，(ii) 机器学习辅助隐私保护，以及 (iii) 基于机器学习的隐私攻击和相应的保护方案，总结了各个领域内的研究进展和关键挑战，并提出了未来的研究方向。

Nov, 2020

隐私保护机器学习：威胁与解决方案

当前机器学习系统需解决隐私问题，需要填补机器学习与隐私社区之间的知识差距，本文介绍两个领域的交叉点，重点介绍用于数据保护的技术。

Mar, 2018

版权是否可以归结于隐私？

该论文探讨如何使用算法稳定技术保护受版权保护的内容免受生成 AI 模型的影响，并指出只是采用这些技术并不能等同于保护版权内容。

May, 2023

大语言模型时代的隐私保护：你所写即你所是

本文调查了一系列流行模型中预训练表示所编码的个人信息的程度，并展示了模型越复杂和数据越多，可能出现数据泄露的正相关性。作者对一种大型多语言数据集上的情感分析特征进行了广泛覆盖的比较和评估，结果表明，隐私保护方法的使用非常重要。作者还发现高度隐私保护的技术（如差分隐私）可能会对模型效用产生严重影响，可以使用混合或度量隐私方法来解决。

Apr, 2022

机器学习预处理技术的统计隐私保障

该论文旨在弥补当前机器学习流程中，尤其是数据预处理阶段中存在的隐私保护鸿沟，该研究使用一种基于统计学方法的隐私侵犯检测框架来实验性地测量机器学习管线的隐私级别，并应用这一新创建的框架来表明针对不平衡数据的重抽样技术会导致模型泄露更多隐私，强调了需开发私有的预处理技术。

Sep, 2021

隐私保护的图机器学习从数据到计算：综述

在图机器学习中，数据的收集、共享和分析往往涉及多个参与方，每个参与方可能需要不同级别的数据安全和隐私保护。为此，在保护敏感信息方面，保持隐私非常重要。在大数据时代，数据实体之间的关系变得前所未有的复杂，越来越多的应用程序利用了支持网络结构和相关属性信息的先进数据结构（即图）。迄今为止，许多基于图的人工智能通过生成隐私保护图数据的方法和传输隐私保护信息（例如图模型参数）的方法来实现基于优化的计算，当在多个参与方之间共享数据是有风险或不可能时。除了讨论相关的理论方法和软件工具外，我们还讨论了当前的挑战，并突出了隐私保护图机器学习的若干未来研究机会。最后，我们构想了一个统一而综合的安全图机器学习系统。

Jul, 2023