通过生成对抗网络推进预先解释模型

AAAIJan, 2024

通过生成对抗网络推进预先解释模型

Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks

Tanmay Garg, Deepika Vemuri, Vineeth N Balasubramanian

TL;DR该论文提出了一种新颖的概念学习框架，用于增强视觉分类任务中模型的可解释性和性能，通过将非监督解释生成器附加到主分类器网络中，并利用对抗训练的方式，使模型从潜在表征中提取视觉概念并与人可解释的视觉属性隐式对齐，该方法的实验结果验证了其稳健性和产生一致的概念激活，同时研究了对抗训练协议中的扰动对分类和概念获取的影响，从而实现了构建具有任务对齐概念表征的内在可解释深度视觉模型的显著进展，为开发可信任的用于真实感知任务的人工智能提供了关键支持。

Abstract

This paper presents a novel concept learning framework for enhancing model interpretability and performance in visual classification tasks. Our approach appends an unsupervised explanation generator to the primar

concept learning framework model interpretability visual classification tasks adversarial training concept acquisition

发现论文，激发创造

通过概念学习先验可解释模型的框架

本文提出一种将解释生成模块附加在基础网络之上、共同训练整个模块的自我解释深度学习模型，适用于无监督概念学习，能够生成有关概念的有意义的解释，并且在概念监督方面有一定的可塑性，具有更好的性能表现。通过在多个数据集上的实验，证明该模型比最近提出的基于概念解释的模型表现更好。

Aug, 2021

利用生成模型对无监督概念为基础的可解释网络进行重新设计

通过将概念特征映射到预训练生成模型的潜在空间中，我们提出了一种新方法，以生成高质量的可视化结果并提供直观、交互式的解释方式。我们验证了该方法在可解释预测网络准确性、重构保真度以及概念学习的忠实性和一致性方面的有效性。

Jul, 2024

生成对抗性训练器：用 GAN 对抗对抗性扰动

我们提出了一种新的技术，使用生成对抗网络使神经网络对抗性示例具有鲁棒性，通过交替训练分类器和生成器网络，我们成功地应用于 CIFAR 数据集的监督学习，实验结果表明我们的方法显著降低了网络的泛化误差。这是我们所知道的第一个使用 GAN 改进监督学习的方法。

May, 2017

利用生成对抗网络增强角色设计师的创造力

本文使用生成对抗网络的生成结果作为认知组件，以增强角色设计师在为不同的多媒体项目概念化新角色时的创造力。同时，本文通过在新的可视化角色数据集上使用单个图形处理器从头开始训练不同的 GAN 架构（包括转移学习和数据增强技术），并使用混合方法评估了生成视觉品质对角色设计师机构概念化新角色的认知价值。研究表明，本方法对该上下文的实施非常有效，将作为一个由人与机器共同设计的工作流程进一步评估。

May, 2023

对抗特征学习

通过设计 BiGANs 模型实现 GANs 的逆向学习与无监督特征学习以及其在辅助监督鉴别任务中的有效性。

May, 2016

生成对抗网络概述

本文概述了生成对抗网络在信号处理中的应用，讨论了 GANs 的训练方法和构建策略以及它们在 deep representations 学习中的表现和存在的挑战。

Oct, 2017

针对对抗鲁棒和可解释分类器的反事实图像生成

提出了一个统一框架，利用图像到图像转换生成对抗网络 (GANs) 生成对抗性样本，以增强可解释性，并扩充数据集以提高对抗性鲁棒性。该框架通过将分类器和辨别器结合成一个单一模型，将真实图像归类为相应的类别，并将生成的图像标记为 “伪造”，以实现这一目标。在具体裂缝的语义分割任务中，评估了方法的有效性，并在水果缺陷检测问题上评估了模型对投影梯度下降 (PGD) 攻击的鲁棒性。我们生成的显著性地图具有很高的描述性，尽管仅在分类标签上进行训练，但与传统分割模型相比，其竞争性 IoU 值表现。此外，该模型对抗性攻击的鲁棒性得到了改善，并展示了辨别器的 “伪造” 值作为预测的不确定性度量。

Oct, 2023

GAN 剖析：可视化并理解生成对抗网络

本文提出了一种分析框架，旨在通过单元、对象和场景级别的可视化来理解生成对抗网络的内在表示，揭示其形成图像的因果关系，探究其结构选择对 GAN 学习的影响，提出了移除图像错乱因素的方法，并提供开源的理解工具。

Nov, 2018

GAN 潜空间的视觉概念词汇

本文介绍了一种新的方法，针对生成对抗网络（GAN）中的潜在空间建立无限制的基元视觉概念词汇表，该方法通过三个组件实现：(1) 基于层选择自动识别知觉显著方向；(2) 人工注释这些方向以自由形式的组成自然语言描述，以及 (3) 将这些注释分解为视觉概念词汇表，由单词标记的精简方向组成。实验表明，使用我们的方法学习的概念是可靠和可组合的 - 概念可以跨越类别、上下文和观察者进行概括，并且可以实现对图像风格和内容的精细操作。

Oct, 2021

Defense-GAN: 使用生成模型保护分类器免受对抗攻击

Defense-GAN 使用生成模型来抵御深度神经网络受到的对抗性攻击，并不需要修改分类器结构或者训练过程，可以适用于任何分类模型，并且不需要了解生成对抗性示例的过程。在不同的攻击方法下，实验证明 Defense-GAN 对抗性攻击防御策略具有一致的有效性，并可以提高现有的防御策略。

May, 2018