深度学习的可视化可解释性调查
本研究介绍了 Network Dissection 方法,通过为深度视觉表示的单元提供标签来解释网络。该方法量化了 CNN 表示的可解释性,通过评估单个隐藏单元和一组视觉语义概念之间的对齐来识别最佳对齐,认定单位为人类可解释标签。研究发现,深度网络是比预期更加透明和可解释的,并且可用于提供 CNN 对图像的解释预测,以增强其可解释性,这是深度神经网络的重要属性,提供了对其分层结构的新的洞见。
Nov, 2017
本文综述了神经网络的可解释性研究,详细阐述了可解释性的定义、重要性、以及基于不同维度的新颖分类方法(如主动 / 被动解释方法、从局部到全局的解释等)。最后还总结了当前可解释性评估方法,并提出了新的研究方向。
Dec, 2020
本文回顾了超过 300 种内部可解释性技术,并引入了一种分类方法,介绍了它们对神经网络的什么部分(权重、神经元、子网络或潜在表示)进行解释,以及它们是在训练期间(内在)还是在训练后(事后)实现的。这篇文章强调了诊断、调试、敌对性和基准测试在未来研究中的重要性,以便使可解释性工具在实际应用中更有用。
Jul, 2022
本文综述了神经网络的解释工具和算法,提出了一种新的分类方法,介绍了解释结果的评估方法和信任度算法的应用,讨论了深度模型解释与鲁棒性和借鉴解释的联系,并介绍了一些开源库。
Mar, 2021
本文提供了一个现有方法的回顾,以开发具有内在可解释性的 DNN,重点关注卷积神经网络 (CNNs),旨在了解向完全可解释 DNN 的当前进展,并确定当前工作中的差距和潜在研究方向。
Jun, 2021
本研究提出了一种称为网络切片的通用框架,通过评估个体隐藏单元与一组语义概念之间的对齐来量化 CNN 的潜在表示的可解释性。该方法使用广泛的视觉概念数据集来评估中间卷积层中隐藏单元的语义。使用该方法测试单元的可解释性是否等同于单元的随机线性组合,然后将其应用于比较训练不同监督和自监督任务的各种网络的潜在表示。进一步分析了训练迭代的效果、比较了不同初始化的网络的效果、检查了网络深度和宽度的影响,并测量了深度视觉表示的可解释性的 dropout 和批标准化的影响。结果表明该方法能够揭示超出 CNN 模型和训练方法辨别能力之外的一些特征。
Apr, 2017
本文提出了一种新颖的技术,通过利用人类描述中蕴含的丰富语义信息来提高深度神经网络的可解释性,特别是在视频字幕任务中,通过一个可解释损失将人类描述中的一组语义相关主题集成到模型中,并提出了一种预测差异最大化算法来解释每个神经元的学习特征。实验结果表明这种方法在视频字幕和视频动作识别方面非常有效。
Mar, 2017
该篇论文综述了深度神经网络在机器学习中的应用,针对一些需要保证安全性的决策(如控制系统和医疗应用),介绍了当前解释性人工智能(XAI)领域的研究,探究和解释 DNNs 内部和整体行为的方法。
Feb, 2021
本文提出了一种方法,将传统的 CNN 转换为可解释的 CNN,以澄清 CNN 高卷积层中的知识表示。在可解释的 CNN 中,高卷积层中的每个滤波器表示某个物体部分,无需任何部件或纹理的注释就可以在学习过程中自动分配。实验表明,可解释的 CNN 中的滤波器比传统 CNN 中的滤波器更具有语义意义。
Oct, 2017