人工神经网络的多层次可解释性:利用神经科学的框架和方法
该研究综述了计算神经科学家开发的数据分析概念和技术如何有助于分析深度神经网络(DNN)中的表示,并探讨了近期发展的DNN分析技术如何有助于理解生物神经网络中的表示,为神经科学和机器学习领域提供了协同机会,例如使用DNN作为神经科学的模型系统,并探讨了这种协同怎样能够产生有关生物神经网络操作原理的新假设。
Oct, 2018
这篇文章探讨从神经科学角度出发,在进行机器学习的探索性研究时,通过指定研究目标且明确探针设计的方向和表现性来实现对于感兴趣特征激活模式的监督模型
Apr, 2021
本文回顾了超过300种内部可解释性技术,并引入了一种分类方法,介绍了它们对神经网络的什么部分(权重、神经元、子网络或潜在表示)进行解释,以及它们是在训练期间(内在)还是在训练后(事后)实现的。这篇文章强调了诊断、调试、敌对性和基准测试在未来研究中的重要性,以便使可解释性工具在实际应用中更有用。
Jul, 2022
本论文概述了生物神经网络为灵活认知所需的特征,讨论了神经网络体系结构的系统级通信和重复性以及短期拓扑变化对于机器学习模型的贡献,并说明人工系统中测试这些归纳偏见有助于理解领域通用认知的生物学原则。
Mar, 2023
在神经网络中,单个神经元往往是“可解释的”,因为它们代表了个别直观有意义的特征。然而,许多神经元表现出混合选择性,即它们代表多个不相关的特征。最近的假设提出深度网络中的特征可能通过多个神经元以非正交的方式进行“叠加”,因为自然数据中可解释的特征数量通常大于给定网络中的神经元数量。因此,我们应该能够在激活空间中找到与个别神经元不一致的有意义方向。在这里,我们提出了(1)一种自动化方法,用于量化视觉可解释性,并与人类心理物理学对神经元可解释性的大型数据库验证,以及(2)一种在网络激活空间中找到有意义方向的方法。我们利用这些方法在卷积神经网络中发现了比个别神经元更具直观意义的方向,通过一系列分析进行了确认和调查。此外,我们将相同的方法应用于大脑中两个最近的视觉神经响应数据集,并发现我们的结论在大部分转移到真实神经数据上,这表明大脑可能使用了叠加。这也与去纠缠有关,并在人工和生物神经系统中提出了关于稳健、高效和分解表示的基本问题。
Oct, 2023
该综述旨在通过研究神经科学和认知心理学的方法,为人工通用智能的追求做出贡献。尽管深度学习模型在各个领域取得了令人印象深刻的进展,但它们在抽象推理和因果理解方面仍然存在缺点。这些能力应该最终整合到人工智能系统中,以克服数据驱动的限制,并以更加接近人类智能的方式支持决策。本工作是一项纵向综述,试图广泛探索大脑功能的范围,包括从低层生物神经元、尖峰神经网络和神经元集合到更高层的概念,如脑解剖学、向量符号体系结构、认知和分类模型以及认知体系结构。希望这些概念能为人工通用智能的解决方案提供启示。
Jan, 2024
提出了内部解释能力作为一个新兴领域,旨在揭示人工智能系统的内部机制,尽管如何发展这些机制理论仍存在争议。然而,最近的批评引发了对其对促进人工智能更广泛目标的有用性的质疑。然而,在另一个领域——认知神经科学,我们发现了相似的问题,从中我们汲取了有益的经验教训。基于这些发现,我们提出了一个通用的概念框架,并给出了在AI内部解释性研究中构建机制解释的具体方法论策略。借助这个概念框架,内部解释能力可以抵制批评,使自身在解释人工智能系统方面进入一个有成效的道路。
Jun, 2024
本研究针对深度学习模型的可解释性不足问题,提出基于认知科学的新视角。通过借鉴认知科学的发展,本文阐明了机械可解释性(MI)的目标并提出了一个新的分类法,以促进对深度学习模型的理解。研究表明,将行为研究与内部表示和算法的理解相结合,可以推动人工智能领域的理论进步和实践应用。
Aug, 2024
本研究解决了人工神经网络与其外部行为之间的复杂关系问题,提出了多层次分析的框架。作者强调通过使用不同的分析工具在多个层次上理解生物与人工神经系统,从而提供了一种系统的方法来应对神经系统的复杂性,促进对智能系统的统一理解。
Aug, 2024