DualCF: 从反事实解释中进行高效模型提取攻击
研究探讨了机器学习模型解释与攻击的关系,并提出了基于知识蒸馏的替代模型提取方法和添加差分隐私的对抗性解释生成方法。实验结果表明,添加隐私保护会影响解释器的性能和生成的对抗性解释的质量,使攻击性能降低。
Apr, 2024
通过利用虚拟的解释接近决策边界的特点,我们提出了一种称为 Counterfactual Clamping Attack (CCA) 的新型模型提取策略,该策略训练一个使用独特损失函数的代理模型,该损失函数将虚拟解释与普通实例区分对待。我们还通过多胞体理论推导出了模型逼近误差与查询数量之间的新的数学关系。实验证明,我们的策略在几个真实世界数据集上提供了改进的目标和代理模型预测一致性。
May, 2024
解释自然语言处理系统预测的因果解释对于确保安全性和建立信任至关重要,本文提出了两种针对模型无关性的倒因果估算方法,分别基于生成和匹配,并通过实验证明了生成模型和匹配模型在模型解释方面的出色性能。
Oct, 2023
通过对属性的逻辑因果关系保护,使用黑箱模型作为分类器并利用变分自动编码器生成可行的对抗性示例,本研究在不同基准数据集上实验,成功生成可行且稀疏的对抗性示例,满足所有预定义的因果约束。
Apr, 2024
本文研究递归部分履行 (CF) 解释在迭代过程中的行为是否增加或减少了被试的总改进成本,我们提出了一个 IPF 的数学形式化,并理论和实验上证明了不同 CF 算法在 IPF 下表现出截然不同的行为,因此对 CF 算法的研究需要考虑这一因素。
Mar, 2023
本文介绍了一种被称为反事实知识蒸馏 (CFKD) 的新技术,通过人类专家反馈帮助检测和消除深度学习模型对混淆因素的依赖。该技术在受监管或安全关键领域有着重要作用,论文还展示了反事实解释相对于其他类型解释的优点,并提出了一个实验方案来定量评估 CFKD 的成功情况以及能够对模型提供反馈的不同教师。同时还引入了一个与真实测试性能更相关的新度量方式。通过在合成增强数据集和真实组织病理学数据集上进行的实验,论文证明了 CFKD 的有效性。
Oct, 2023
该研究提出了一种基于云的提取监视器,通过观察单个和串通的对手用户的查询和响应流来量化模型的提取状态,从而使用信息增益来测量具有不断增加查询数量的用户的模型学习速率,并维护智能查询摘要以在串通存在的情况下测量与输入特征空间覆盖度相关的学习速率,以提醒模型所有者可能存在侵犯攻击。
Nov, 2017
这篇论文提出了一种利用显著性地图生成更具信息量的 CF 解释的新方法,以解决当前深层生成 CF 模型中被选择特征导致的反直觉结果的问题。
Jul, 2023