DualCF: 从反事实解释中进行高效模型提取攻击

May, 2022

DualCF: 从反事实解释中进行高效模型提取攻击

DualCF: Efficient Model Extraction Attack from Counterfactual Explanations

Yongjie Wang, Hangwei Qian, Chunyan Miao

TL;DR本文提出了一种名为 DualCF 的策略，用于云模型抽取攻击中的高效查询，在使用对抗性 CF 训练代替模型时，可以通过将 CF 与对抗性 CF 的解释匹配使代替模型的准确度更高。

Abstract

Cloud service providers have launched machine-learning-as-a-service (MLaaS) platforms to allow users to access large-scale cloudbased models via APIs. In addition to prediction outputs, these APIs can also provide other information in a more human-understandable way, such as

machine-learning-as-a-service counterfactual explanations extraction attacks black-box nature dualcf strategy

发现论文，激发创造

基于知识蒸馏的模型提取攻击：使用私有对联解释

研究探讨了机器学习模型解释与攻击的关系，并提出了基于知识蒸馏的替代模型提取方法和添加差分隐私的对抗性解释生成方法。实验结果表明，添加隐私保护会影响解释器的性能和生成的对抗性解释的质量，使攻击性能降低。

Apr, 2024

利用反事实解释进行模型重建：缓解决策边界变动

通过利用虚拟的解释接近决策边界的特点，我们提出了一种称为 Counterfactual Clamping Attack (CCA) 的新型模型提取策略，该策略训练一个使用独特损失函数的代理模型，该损失函数将虚拟解释与普通实例区分对待。我们还通过多胞体理论推导出了模型逼近误差与查询数量之间的新的数学关系。实验证明，我们的策略在几个真实世界数据集上提供了改进的目标和代理模型预测一致性。

May, 2024

水印反事实解释

提出了一个模型不可知水印框架，用于探测未经授权的模型提取攻击，并保证所嵌入的水印不损害生成的对抗结果解释的质量。

May, 2024

利用生成的 LLM 的反事实文本来解释黑盒 NLP 模型

解释自然语言处理系统预测的因果解释对于确保安全性和建立信任至关重要，本文提出了两种针对模型无关性的倒因果估算方法，分别基于生成和匹配，并通过实验证明了生成模型和匹配模型在模型解释方面的出色性能。

Oct, 2023

一种可行的反事实探索框架：融合因果关系、稀疏性和密度

通过对属性的逻辑因果关系保护，使用黑箱模型作为分类器并利用变分自动编码器生成可行的对抗性示例，本研究在不同基准数据集上实验，成功生成可行且稀疏的对抗性示例，满足所有预定义的因果约束。

Apr, 2024

CATfOOD：提升跨领域性能和校准性的反事实增强训练

使用大型语言模型对小型语言模型进行训练数据增强，在抽取式问答系统中改善模型的领域外性能，并提高模型校准的多样性和精简性。

Sep, 2023

反事实解释的迭代部分满足：利益与风险

本文研究递归部分履行 (CF) 解释在迭代过程中的行为是否增加或减少了被试的总改进成本，我们提出了一个 IPF 的数学形式化，并理论和实验上证明了不同 CF 算法在 IPF 下表现出截然不同的行为，因此对 CF 算法的研究需要考虑这一因素。

Mar, 2023

借助反事实知识蒸馏来纠正 Clever-Hans 预测器

本文介绍了一种被称为反事实知识蒸馏 (CFKD) 的新技术，通过人类专家反馈帮助检测和消除深度学习模型对混淆因素的依赖。该技术在受监管或安全关键领域有着重要作用，论文还展示了反事实解释相对于其他类型解释的优点，并提出了一个实验方案来定量评估 CFKD 的成功情况以及能够对模型提供反馈的不同教师。同时还引入了一个与真实测试性能更相关的新度量方式。通过在合成增强数据集和真实组织病理学数据集上进行的实验，论文证明了 CFKD 的有效性。

Oct, 2023

MLaaS 范式中的模型提取警告

该研究提出了一种基于云的提取监视器，通过观察单个和串通的对手用户的查询和响应流来量化模型的提取状态，从而使用信息增益来测量具有不断增加查询数量的用户的模型学习速率，并维护智能查询摘要以在串通存在的情况下测量与输入特征空间覆盖度相关的学习速率，以提醒模型所有者可能存在侵犯攻击。

Nov, 2017

SAFE：基于显著性感知的深度神经网络自动驾驶系统反事实解释

这篇论文提出了一种利用显著性地图生成更具信息量的 CF 解释的新方法，以解决当前深层生成 CF 模型中被选择特征导致的反直觉结果的问题。

Jul, 2023