May, 2024

利用反事实解释进行模型重建:缓解决策边界变动

TL;DR通过利用虚拟的解释接近决策边界的特点,我们提出了一种称为 Counterfactual Clamping Attack (CCA) 的新型模型提取策略,该策略训练一个使用独特损失函数的代理模型,该损失函数将虚拟解释与普通实例区分对待。我们还通过多胞体理论推导出了模型逼近误差与查询数量之间的新的数学关系。实验证明,我们的策略在几个真实世界数据集上提供了改进的目标和代理模型预测一致性。