XRand：差分隐私防御解释引导攻击

AAAIDec, 2022

XRand：差分隐私防御解释引导攻击

XRand: Differentially Private Defense against Explanation-Guided Attacks

Truc Nguyen, Phung Lai, NhatHai Phan, My T. Thai

TL;DR该研究介绍了一个叫做 XRand 的新的机制来保护基于特征的解释不被恶意利用，该机制使用局部差分隐私来限制攻击者对重要特征的了解。

Abstract

Recent development in the field of explainable artificial intelligence (XAI) has helped improve trust in machine-learning-as-a-service (MLaaS) systems, in which an explanation is provided together with the model

explainable artificial intelligence machine-learning-as-a-service feature-based explanations local differential privacy defense

发现论文，激发创造

具有差分隐私的模型解释

使用差分隐私机制构建基于特征的模型解释，降低解释数据隐私泄露，评估差分隐私模型及其隐私机制对模型解释质量的影响。

Jun, 2020

可解释人工智能在数据驱动系统中的隐私影响

机器学习模型的不透明性威胁到其可解释性，可解释人工智能（XAI）技术通过提供解释 ML 模型内部决策过程的框架和方法来解决这一挑战，同时维护隐私的难题需要在理解 ML 决策和保护隐私之间找到平衡点。

Jun, 2024

可解释人工智能中的对抗攻击和防御：一项调查

该论文对 50 多篇与机器学习模型解释袭击和公正性度量有关的研究进行了简要综述，并讨论了如何防御攻击和设计稳健的解释方法。该论文提出了现有 XAI（可解释人工智能）不安全因素的列表，并概述了 Adversarial XAI（AdvXAI）的新兴研究方向。

Jun, 2023

基于知识蒸馏的模型提取攻击：使用私有对联解释

研究探讨了机器学习模型解释与攻击的关系，并提出了基于知识蒸馏的替代模型提取方法和添加差分隐私的对抗性解释生成方法。实验结果表明，添加隐私保护会影响解释器的性能和生成的对抗性解释的质量，使攻击性能降低。

Apr, 2024

隐私与可解释性：全面影响基准

该研究首次研究了隐私学习技术对基于深度学习模型的生成解释的影响，并在多个领域的各种图像和时间序列数据集上进行了详尽的实验分析，提出了在实际应用中该选择哪种技术的明确建议。

Nov, 2022

隐私与可解释性之间的权衡：异常检测的差分隐私分析

我们的研究利用可解释的人工智能（XAI）和差分隐私（DP）之间的权衡，通过 SHapley Additive exPlanations (SHAP) 和差分隐私 (DP) 进行异常检测（AD），并对不同的模型和各种数据集进行了全面评估，结果显示，隐私保护对检测准确性和可解释性有显著影响，这取决于数据集和所考虑的异常检测模型，同时我们还发现，AD 算法的选择也会影响解释的可视化。

Apr, 2024

限距解释：理论基础与高效实施

机器学习、可解释人工智能、基于逻辑的可解释性、距离限制解释和扩展性是该研究论文的主要关键词和研究领域，研究了用于计算和枚举大量输入的逻辑解释器性能扩展的新算法。

May, 2024

揭示神经网络在参数学习和防御中的漏洞与对抗解释感知后门

通过统计分析卷积神经网络中的权重变化，我们设计了一种方法来防御现代可解释性对抗攻击，成功率下降了 99%，原始解释和防御后（攻击后）解释的均方误差减少了 91%。

Mar, 2024

利用解释进行模型反演攻击

研究了解释型人工智能提供的隐私侵犯风险，以及通过多模态转置 CNN 架构和注意力转移等技术实现图像模型反转攻击，提高模型反转性能的方法。

Apr, 2021

使用机器学习和 Shapley 加性解释（SHAP）方法对分布式拒绝服务（DDoS）攻击检测进行分类和解释

该研究提出了一个框架，利用机器学习和可解释的人工智能技术，分类和识别 DDoS 攻击的合法流量和恶意流量，在使用 SHAP 进行解释后的分类器模型中，该模型的性能表现高于 99％的准确性。

Jun, 2023