关于可证实解释性研究的探索
本研究旨在通过减少神经元的不确定性,提高 DNNs 在整个图像空间的可解释性。通过提出一个新的度量方式、利用对抗样本发现学习后的神经元特征具有歧义性,以及通过一种有着一致性损失的对抗训练算法来提高对抗样本子集上的神经元的一致性
Jan, 2019
本文回顾了超过 300 种内部可解释性技术,并引入了一种分类方法,介绍了它们对神经网络的什么部分(权重、神经元、子网络或潜在表示)进行解释,以及它们是在训练期间(内在)还是在训练后(事后)实现的。这篇文章强调了诊断、调试、敌对性和基准测试在未来研究中的重要性,以便使可解释性工具在实际应用中更有用。
Jul, 2022
本文提出了一种新颖的技术,通过利用人类描述中蕴含的丰富语义信息来提高深度神经网络的可解释性,特别是在视频字幕任务中,通过一个可解释损失将人类描述中的一组语义相关主题集成到模型中,并提出了一种预测差异最大化算法来解释每个神经元的学习特征。实验结果表明这种方法在视频字幕和视频动作识别方面非常有效。
Mar, 2017
本文探究了解释深度学习预测的方法对于随机扰动的敏感性,发现即使对于具有同一预测标签的两个感官不可分的输入,这些方法也会得出非常不同的解释结果,并分析了导致这种脆弱性的几何原因。
Oct, 2017
本文综述了神经网络的可解释性研究,详细阐述了可解释性的定义、重要性、以及基于不同维度的新颖分类方法(如主动 / 被动解释方法、从局部到全局的解释等)。最后还总结了当前可解释性评估方法,并提出了新的研究方向。
Dec, 2020
本文提供了一个现有方法的回顾,以开发具有内在可解释性的 DNN,重点关注卷积神经网络 (CNNs),旨在了解向完全可解释 DNN 的当前进展,并确定当前工作中的差距和潜在研究方向。
Jun, 2021
本文综述了解神经网络表示和学习可解释 / 解耦的中间层表示的最新研究进展,并重点介绍了卷积神经网络 (CNNs) 的可视化、诊断、解耦、学习及其在可解释人工智能方面的前景趋势。
Feb, 2018
在神经网络中,单个神经元往往是 “可解释的”,因为它们代表了个别直观有意义的特征。然而,许多神经元表现出混合选择性,即它们代表多个不相关的特征。最近的假设提出深度网络中的特征可能通过多个神经元以非正交的方式进行 “叠加”,因为自然数据中可解释的特征数量通常大于给定网络中的神经元数量。因此,我们应该能够在激活空间中找到与个别神经元不一致的有意义方向。在这里,我们提出了(1)一种自动化方法,用于量化视觉可解释性,并与人类心理物理学对神经元可解释性的大型数据库验证,以及(2)一种在网络激活空间中找到有意义方向的方法。我们利用这些方法在卷积神经网络中发现了比个别神经元更具直观意义的方向,通过一系列分析进行了确认和调查。此外,我们将相同的方法应用于大脑中两个最近的视觉神经响应数据集,并发现我们的结论在大部分转移到真实神经数据上,这表明大脑可能使用了叠加。这也与去纠缠有关,并在人工和生物神经系统中提出了关于稳健、高效和分解表示的基本问题。
Oct, 2023