ICLRMay, 2021

DISSECT: 通过概念遍历进行解释的分离式同时解释

TL;DR这篇论文提出了一种名为 DISSECT 的新方法,该方法可以有效地实现生成解释、概念解缠、反事实解释、可解释性和偏见检测等课题。该方法使用少量监督同时训练生成器、鉴别器和概念解缠器,通过生成分类器辨别信号的生成模型,能够自动发现分类器固有的不同概念。应用该方法能够检测分类器的潜在偏见和识别影响预测的虚假因素。