AAAIDec, 2021

通过干预解释潜空间

TL;DR本研究通过使用干预机制,利用离散变分自编码器来转移预测类别,进而可视化任何隐藏层的编码信息和对应的被干预表示来揭示深度神经网络的隐含概念,并通过评估原始表示与被干预表示之间的差异来确定可改变类别的概念,从而提高模型的可解释性。我们在 CelebA 数据集上展示了我们方法的有效性,并展示了有偏差数据的各种可视化并提供不同的干预方法来揭示和更正偏见。