Jul, 2024

严格的概率保证对于鲁棒的反事实解释

TL;DR我们研究了深度学习模型反事实解释的鲁棒性评估问题,并提出了一种关于此设置中鲁棒性属性的新框架,其中重点考虑了可能的模型变化。通过首次展示反事实对于可能的模型变化的鲁棒性计算是NP完全的,以此来激发我们解决方案的动机。本文提出了一种新的概率方法,能够在保持可伸缩性的同时提供鲁棒性的紧密估计和强有力的保证,与现有解决方案不同的是,我们的方法不对待分析的网络提出要求,从而使得鲁棒性分析适用于更广泛的架构。在四个二分类数据集上的实验证明,我们的方法在生成鲁棒解释方面改进了现有技术,并在各种度量指标上优于现有方法。