审计可视化：透明化方法难以检测异常行为

Jun, 2022

审计可视化：透明化方法难以检测异常行为

Auditing Visualizations: Transparency Methods Struggle to Detect Anomalous Behavior

Jean-Stanislas Denain, Jacob Steinhardt

TL;DR通过定义异常模型来测试透明度方法是否能够反映模型行为的新颖研究指出，现有方法难以识别模型中的细微异常，指示需要进一步发展方法。

Abstract

transparency methods such as model visualizations provide information that outputs alone might miss, since they describe the internals of neural networks. But can we trust that →

transparency methods neural networks model explanations abnormal behavior anomalous models

发现论文，激发创造

可解释的视觉异常检测

本文介绍了针对图像和视频的异常检测方法的可解释性研究，包括基本背景、当前可解释方法、综合文献细节及未来方向。

Feb, 2023

透明异常检测的基于概念的解释

透明异常检测概念解释（ACE）是一种基于深度学习技术的新方法，旨在提供可解释的异常检测结果，并能与人类有效交互，具有与黑盒模型相比更高或相当的性能，并可与其他基于分类的异常检测方法无缝集成。

Oct, 2023

X-MAN: 解释视频中多个异常源

文中提出了一种可以理解的概率异常检测器，可以通过高级概念描述其响应的原因，并且是首个将对象交互考虑在内并提供异常解释的任务。

Jun, 2021

为模型解释调试测试

研究了后续模型解释对于诊断模型错误的有效性，通过将错误按来源分类为数据、模型和测试时污染性错误，评估了几种解释方法对查找虚假相关性、误标记训练实例、诊断非初始化模型、检测测试时污染输入等错误的能力，发现这些方法能够发现虚假背景错误，但不能明确识别误标记的训练实例，同时某些方法对深度网络高层参数缺乏鲁棒性，不能有效诊断模型污染性错误。人类主体研究表明，人们未能使用归因来识别有缺陷的模型，而是主要依赖于模型预测。这些结果为研究人员和从业者在使用解释作为模型调试工具时提供了指导。

Nov, 2020

文本复杂推理的可追溯和可解释方法

研究复杂推理任务的机器学习模型的问责和透明度方法，通过暴露潜在漏洞和解释模型推理过程来提高利益相关者的信任度和发现模型决策中的错误和不公平性。

Nov, 2022

深度视觉建模中可解释人工智能的调查：方法和度量

本文是可解释人工智能领域的第一篇调查研究，探讨了深度视觉模型解释方法和度量标准，提供了现有技术的分类组织，阐述了不同属性的度量方法，并就当前趋势、挑战和未来方向进行了深入讨论。

Jan, 2023

显著图的合理性检查

本文对几种显著性方法进行实验和理论探索，提出用可行的方法来评估一种方法所能提供和不能提供的解释类型。实验证明，有些现有的显著性方法具有独立性，这些方法不受模型和数据生成过程的影响，因此，那些未通过所提出测试的方法，对于对数据或模型敏感的任务（如在数据中找到异常值，解释模型所学到的输入和输出之间的关系以及调试模型）是不适当的。与边缘检测类比，本文发现一些显著性方法无需训练数据或模型就能有效实现其功能。

Oct, 2018

非欺骗性基于扰动的事后解释器

本文研究如何对黑盒人工智能系统进行可解释性分析，提出了 CAD-Detect 和 CAD-Defend 两个算法来探测和防御对应的对抗性攻击，并使用 KNN-CAD 来进行条件异常值检测，实现了对真实数据中的 LIME 和 SHAP 可解释性算法的对抗攻击检测和缓解。

May, 2022

深度视觉特征的神经元解释破坏

通过统一的流程对神经元解释方法进行了首次的鲁棒性分析，揭示在探测数据中添加随机噪声和设计良好的干扰可以显著破坏这些解释，引发对神经元解释方法在现实应用中的安全和公平性的关切。

Oct, 2023

不要相信你的眼睛：特征可视化的（不）可靠性

通过对神经网络内部运作方式的可解释性实现可靠功能的可视化是建立在可重复连通性的基础之上，因此我们需要发展更可靠的特征可视化方法解释神经网络处理自然图像的能力。

Jun, 2023