AAAIJan, 2024

通过生成对抗网络推进预先解释模型

TL;DR该论文提出了一种新颖的概念学习框架,用于增强视觉分类任务中模型的可解释性和性能,通过将非监督解释生成器附加到主分类器网络中,并利用对抗训练的方式,使模型从潜在表征中提取视觉概念并与人可解释的视觉属性隐式对齐,该方法的实验结果验证了其稳健性和产生一致的概念激活,同时研究了对抗训练协议中的扰动对分类和概念获取的影响,从而实现了构建具有任务对齐概念表征的内在可解释深度视觉模型的显著进展,为开发可信任的用于真实感知任务的人工智能提供了关键支持。