Oct, 2023

LIPEx -- 局部可解释性概率解释 -- 超越真实类别

TL;DR本研究介绍了一种新型的基于扰动的多类别解释框架 LIPEx(局部可解释的概率解释),证明 LIPEx 不仅可以局部复制广泛使用的复杂分类模型输出的概率分布,而且还可以提供关于每个被认为重要的特征如何影响每个可能类别的预测概率的见解。研究通过根据概率分布空间中的 Hellinger 距离执行的回归获得解释的矩阵。对文本和图像数据进行的消融测试表明,与其他基于显著性或特征重要性的 XAI 方法相比,LIPEx 指导下从数据中移除重要特征会对底层模型的预测产生更大的变化。研究还表明,与 LIME 相比,LIPEx 在可靠评估解释所需的扰动数量上具有更高的数据效率。