Sep, 2023

关于对抗鲁棒性和可操作解释之间的权衡

TL;DR机器学习模型在高风险环境中的应用越来越多,确保这些模型的预测不仅具有对抗性鲁棒性,而且能够向相关利益相关方进行解释变得重要。然而,这两个概念是否可以同时实现以及是否存在着它们之间的权衡是不清楚的。在本研究中,我们首次尝试研究对抗性鲁棒模型对行动性解释的影响,这些解释为最终用户提供了救济手段。我们在理论上和实证上分析了当基础模型具有对抗性鲁棒性和非鲁棒性时,最先进算法所生成的救济方案的成本(实施的便利性)和有效性(获得积极模型预测的概率)之间的差异,并针对对抗性鲁棒和非鲁棒的线性和非线性模型推导了理论界限。我们通过多个真实数据集的实证结果验证了我们的理论结果,并展示了模型鲁棒性不同程度对救济方案的成本和有效性的影响。我们的分析表明,对抗性鲁棒模型显著增加了救济方案的成本并降低了有效性,从而揭示了对抗性鲁棒性和行动性解释之间的固有权衡。