模型解释的隐私风险

Jun, 2019

On the Privacy Risks of Model Explanations

Reza Shokri, Martin Strobel, Yair Zick

TL;DR本研究分析了模型解释和训练数据隐私保护之间的联系，通过特征模型解释的成员推断攻击评估了隐私风险，并研究了隐私和解释质量之间的平衡。

Abstract

Privacy and transparency are two key foundations of trustworthy machine learning. model explanations offer insights into a model's decisions on input data, whereas privacy is primarily concerned with protecting information about the →

machine learning model explanations privacy risks membership inference attacks training data

发现论文，激发创造

具有差分隐私的模型解释

使用差分隐私机制构建基于特征的模型解释，降低解释数据隐私泄露，评估差分隐私模型及其隐私机制对模型解释质量的影响。

Jun, 2020

可解释人工智能在数据驱动系统中的隐私影响

机器学习模型的不透明性威胁到其可解释性，可解释人工智能（XAI）技术通过提供解释 ML 模型内部决策过程的框架和方法来解决这一挑战，同时维护隐私的难题需要在理解 ML 决策和保护隐私之间找到平衡点。

Jun, 2024

隐私保护模型解释的调查：隐私风险、攻击和对策

解释性人工智能在隐私保护方面的攻击和对策进行了细致的调查和分析，发现了一些隐私泄漏的原因，并提出了未解决的问题和前景研究方向。

Mar, 2024

隐私与可解释性：全面影响基准

该研究首次研究了隐私学习技术对基于深度学习模型的生成解释的影响，并在多个领域的各种图像和时间序列数据集上进行了详尽的实验分析，提出了在实际应用中该选择哪种技术的明确建议。

Nov, 2022

机器学习模型隐私风险的系统评估

本文研究了机器学习模型的隐私风险和成员推理攻击，提出了一种基于预测熵修改的推理攻击和一个新的隐私风险得分指标，同时对已有的防御机制进行了基准攻击，实验结果表明个体样本的隐私风险得分分布差异很大，同时确定源风险的主要因素与模型敏感性、综合误差和特征嵌入有关系。

Mar, 2020

利用解释进行模型反演攻击

研究了解释型人工智能提供的隐私侵犯风险，以及通过多模态转置 CNN 架构和注意力转移等技术实现图像模型反转攻击，提高模型反转性能的方法。

Apr, 2021

机器学习中的隐私风险：分析与过度拟合的关联

本篇论文探讨了机器学习算法在敏感数据应用时对隐私的威胁，分析了过拟合和影响因素对攻击者从训练数据中提取信息的能力的影响，并研究了成员推断和属性推断之间的联系。

Sep, 2017

重新思考用户研究设计以评估模型解释

该研究通过一个众包实验，探讨解释机器学习模型的预测对人类是否具有帮助，并发现在给定特征系数的情况下，人们能够更有效地对线性词袋模型进行操纵，但解释对 BERT 型分类器并没有显著提高操纵能力，而通过伪造 BERT 模型的线性模型的对全局归属的解释则可以有效地操作 BERT 型模型。

Dec, 2021

人工智能决策中解释对公平性的影响：受保护特征与代理特征

AI 系统中的偏见可以通过解释来帮助人工智能团队应对这些偏见，提高决策公正性，但解释可能无法揭示间接偏见，需要通过模型偏见披露和代理特征相关性披露来改善模型公平性感知和决策公正性。

Oct, 2023

机器学习模型中的统一解释：一种扰动方法

面向可解释人工智能（XAI）的高速范式转变已在近年来出现。高度复杂的机器学习（ML）模型在许多智能任务中蓬勃发展，而问题开始从传统的有效性度量转向更深层次的问题：该模型告诉我关于我的数据什么，它是如何得出这些结论的？XAI 和建模技术之间的不一致可能对这些解释性方法的效力产生质疑。为了解决这些问题，我们提出了一种针对流行的 XAI 的模型不可知方法 SHapley Additive exPlanations（Shap）进行系统的扰动分析。我们设计了一些算法，在动态推理的设置下生成相对特征重要性，这些设置针对一套流行的机器学习和深度学习方法，以及允许我们量化静态情况下生成解释的质量的度量指标。我们提出了特征重要性方法论的分类体系，度量了一致性，并观察了几个数据集中解释模型之间的可量化相似性。

May, 2024