基于知识蒸馏的模型提取攻击：使用私有对联解释

Apr, 2024

基于知识蒸馏的模型提取攻击：使用私有对联解释

Knowledge Distillation-Based Model Extraction Attack using Private Counterfactual Explanations

Fatima Ezzeddine, Omran Ayoub, Silvia Giordano

TL;DR研究探讨了机器学习模型解释与攻击的关系，并提出了基于知识蒸馏的替代模型提取方法和添加差分隐私的对抗性解释生成方法。实验结果表明，添加隐私保护会影响解释器的性能和生成的对抗性解释的质量，使攻击性能降低。

Abstract

In recent years, there has been a notable increase in the deployment of machine learning (ML) models as services (MLaaS) across diverse production software applications. In parallel, explainable ai (XAI) continues to evolve, addressing the necessity for transparency and trustworthiness

machine learning models explainable ai model extraction attacks counterfactual explanations differential privacy

发现论文，激发创造

DualCF: 从反事实解释中进行高效模型提取攻击

本文提出了一种名为 DualCF 的策略，用于云模型抽取攻击中的高效查询，在使用对抗性 CF 训练代替模型时，可以通过将 CF 与对抗性 CF 的解释匹配使代替模型的准确度更高。

May, 2022

水印反事实解释

提出了一个模型不可知水印框架，用于探测未经授权的模型提取攻击，并保证所嵌入的水印不损害生成的对抗结果解释的质量。

May, 2024

MEGEX：基于梯度的可解释人工智能无数据模型提取攻击

本文提出了 MEGEX，针对一种梯度可解释人工智能的数据自由模型提取攻击。攻击者使用解释结果来训练生成模型以减少查询次数，可以在不准备输入数据的情况下成功窃取训练好的模型。实验表明，在 SVHN 和 CIFAR-10 数据集上，给定 200 万和 2000 万个查询，我们提出的方法可以重构高准确度的模型，分别是受害模型准确度的 0.97 倍和 0.98 倍，这暗示着模型的可解释性和难以窃取之间存在折衷。

Jul, 2021

借助反事实知识蒸馏来纠正 Clever-Hans 预测器

本文介绍了一种被称为反事实知识蒸馏 (CFKD) 的新技术，通过人类专家反馈帮助检测和消除深度学习模型对混淆因素的依赖。该技术在受监管或安全关键领域有着重要作用，论文还展示了反事实解释相对于其他类型解释的优点，并提出了一个实验方案来定量评估 CFKD 的成功情况以及能够对模型提供反馈的不同教师。同时还引入了一个与真实测试性能更相关的新度量方式。通过在合成增强数据集和真实组织病理学数据集上进行的实验，论文证明了 CFKD 的有效性。

Oct, 2023

在金融文本分类中为深度变压器生成合理的反事实解释

本文提出一种新方法来产生可信的反事实解释，探索金融科技领域语言模型对于敌对训练的规范化优势，实验结果表明，与现有的最先进技术和人类表现相比，该方法不仅提高了模型的准确性，而且根据人类试验，产生的反事实解释更加可信。

Oct, 2020

MACE：一个高效的模型无关框架用于因果解释

提出了一种新的框架 Model-Agnostic Counterfactual Explanation (MACE)，通过采用一种新设计的流水线来有效处理大量特征值上的非可分机器学习模型，其中包括使用基于 RL 的方法来找到良好的对策例子和梯度下降方法来改进相似性。公共数据集上的实验证实了该方法的有效性，具有更好的准确性、稀疏性和相似性。

May, 2022

XRand：差分隐私防御解释引导攻击

该研究介绍了一个叫做 XRand 的新的机制来保护基于特征的解释不被恶意利用，该机制使用局部差分隐私来限制攻击者对重要特征的了解。

Dec, 2022

利用反事实解释进行模型重建：缓解决策边界变动

通过利用虚拟的解释接近决策边界的特点，我们提出了一种称为 Counterfactual Clamping Attack (CCA) 的新型模型提取策略，该策略训练一个使用独特损失函数的代理模型，该损失函数将虚拟解释与普通实例区分对待。我们还通过多胞体理论推导出了模型逼近误差与查询数量之间的新的数学关系。实验证明，我们的策略在几个真实世界数据集上提供了改进的目标和代理模型预测一致性。

May, 2024

隐私保护模型解释的调查：隐私风险、攻击和对策

解释性人工智能在隐私保护方面的攻击和对策进行了细致的调查和分析，发现了一些隐私泄漏的原因，并提出了未解决的问题和前景研究方向。

Mar, 2024

利用因果发现对黑盒机器学习模型进行反事实解释，并应用于信用评级

该研究提出了一种新的可解释人工智能框架，利用反事实概率和关于因果结构的先验信息，以实现通过因果发现方法和黑盒分类模型来估计因果图并估计解释得分，从而更准确地解释模型的内部机制。通过人工数据的数值实验和信贷评级的实际数据应用，证明了该方法在因果图未知的情况下的有效性。

Feb, 2024