审计可视化:透明化方法难以检测异常行为
透明异常检测概念解释(ACE)是一种基于深度学习技术的新方法,旨在提供可解释的异常检测结果,并能与人类有效交互,具有与黑盒模型相比更高或相当的性能,并可与其他基于分类的异常检测方法无缝集成。
Oct, 2023
研究了后续模型解释对于诊断模型错误的有效性,通过将错误按来源分类为数据、模型和测试时污染性错误,评估了几种解释方法对查找虚假相关性、误标记训练实例、诊断非初始化模型、检测测试时污染输入等错误的能力,发现这些方法能够发现虚假背景错误,但不能明确识别误标记的训练实例,同时某些方法对深度网络高层参数缺乏鲁棒性,不能有效诊断模型污染性错误。人类主体研究表明,人们未能使用归因来识别有缺陷的模型,而是主要依赖于模型预测。这些结果为研究人员和从业者在使用解释作为模型调试工具时提供了指导。
Nov, 2020
本文是可解释人工智能领域的第一篇调查研究,探讨了深度视觉模型解释方法和度量标准,提供了现有技术的分类组织,阐述了不同属性的度量方法,并就当前趋势、挑战和未来方向进行了深入讨论。
Jan, 2023
本文对几种显著性方法进行实验和理论探索,提出用可行的方法来评估一种方法所能提供和不能提供的解释类型。实验证明,有些现有的显著性方法具有独立性,这些方法不受模型和数据生成过程的影响,因此,那些未通过所提出测试的方法,对于对数据或模型敏感的任务( 如在数据中找到异常值,解释模型所学到的输入和输出之间的关系以及调试模型)是不适当的。与边缘检测类比,本文发现一些显著性方法无需训练数据或模型就能有效实现其功能。
Oct, 2018
本文研究如何对黑盒人工智能系统进行可解释性分析,提出了 CAD-Detect 和 CAD-Defend 两个算法来探测和防御对应的对抗性攻击,并使用 KNN-CAD 来进行条件异常值检测,实现了对真实数据中的 LIME 和 SHAP 可解释性算法的对抗攻击检测和缓解。
May, 2022
通过统一的流程对神经元解释方法进行了首次的鲁棒性分析,揭示在探测数据中添加随机噪声和设计良好的干扰可以显著破坏这些解释,引发对神经元解释方法在现实应用中的安全和公平性的关切。
Oct, 2023
通过对神经网络内部运作方式的可解释性实现可靠功能的可视化是建立在可重复连通性的基础之上,因此我们需要发展更可靠的特征可视化方法解释神经网络处理自然图像的能力。
Jun, 2023