使用差分隐私机制构建基于特征的模型解释,降低解释数据隐私泄露,评估差分隐私模型及其隐私机制对模型解释质量的影响。
Jun, 2020
机器学习模型的不透明性威胁到其可解释性,可解释人工智能(XAI)技术通过提供解释 ML 模型内部决策过程的框架和方法来解决这一挑战,同时维护隐私的难题需要在理解 ML 决策和保护隐私之间找到平衡点。
Jun, 2024
该论文对 50 多篇与机器学习模型解释袭击和公正性度量有关的研究进行了简要综述,并讨论了如何防御攻击和设计稳健的解释方法。该论文提出了现有 XAI(可解释人工智能)不安全因素的列表,并概述了 Adversarial XAI(AdvXAI)的新兴研究方向。
Jun, 2023
研究探讨了机器学习模型解释与攻击的关系,并提出了基于知识蒸馏的替代模型提取方法和添加差分隐私的对抗性解释生成方法。实验结果表明,添加隐私保护会影响解释器的性能和生成的对抗性解释的质量,使攻击性能降低。
Apr, 2024
该研究首次研究了隐私学习技术对基于深度学习模型的生成解释的影响,并在多个领域的各种图像和时间序列数据集上进行了详尽的实验分析,提出了在实际应用中该选择哪种技术的明确建议。
Nov, 2022
我们的研究利用可解释的人工智能(XAI)和差分隐私(DP)之间的权衡,通过 SHapley Additive exPlanations (SHAP) 和差分隐私 (DP) 进行异常检测(AD),并对不同的模型和各种数据集进行了全面评估,结果显示,隐私保护对检测准确性和可解释性有显著影响,这取决于数据集和所考虑的异常检测模型,同时我们 还发现,AD 算法的选择也会影响解释的可视化。
机器学习、可解释人工智能、基于逻辑的可解释性、距离限制解释和扩展性是该研究论文的主要关键词和研究领域,研究了用于计算和枚举大量输入的逻辑解释器性能扩展的新算法。
May, 2024
通过统计分析卷积神经网络中的权重变化,我们设计了一种方法来防御现代可解释性对抗攻击,成功率下降了 99%,原始解释和防御后(攻击后)解释的均方误差减少了 91%。
Mar, 2024
研究了解释型人工智能提供的隐私侵犯风险,以及通过多模态转置 CNN 架构和注意力转移等技术实现图像模型反转攻击,提高模型反转性能的方法。
Apr, 2021
该研究提出了一个框架,利用机器学习和可解释的人工智能技术,分类和识别 DDoS 攻击的合法流量和恶意流量,在使用 SHAP 进行解释后的分类器模型中,该模型的性能表现高于 99%的准确性。