ICLRJun, 2020

重新思考基于梯度的属性方法在模型可解释性中的作用

TL;DR该研究分析了模型 input-gradients 在解释性方面的问题,提出了将标准 softmax-based 分类器的 logits 重新解释为未归一化的数据密度,证明了 input-gradients 可以被视为隐含于判别模型中的类条件密度模型的梯度,并提出了通过 score-matching 来实现对隐含密度模型与数据分布的对齐的算法。研究表明,对齐隐含密度模型和数据分布可以提高梯度的结构性和解释性。