可解释性中的认知革命：从解释行为到解释表示与算法

Aug, 2024

可解释性中的认知革命：从解释行为到解释表示与算法

The Cognitive Revolution in Interpretability: From Explaining Behavior to Interpreting Representations and Algorithms

Adam Davies, Ashkan Khakzar

TL;DR本研究针对深度学习模型的可解释性不足问题，提出基于认知科学的新视角。通过借鉴认知科学的发展，本文阐明了机械可解释性（MI）的目标并提出了一个新的分类法，以促进对深度学习模型的理解。研究表明，将行为研究与内部表示和算法的理解相结合，可以推动人工智能领域的理论进步和实践应用。

Abstract

Artificial Neural Networks have long been understood as "black boxes": though we know their computation graphs and learned parameters, the knowledge encoded by these weights and functions they perform are not inherently interpretable. As such, from the early days of deep learning, ther

发现论文，激发创造

关于可证实解释性研究的探索

本文介绍了深度神经网络的可解释性研究及其方法，指出目前的方法存在的局限和风险，并提出了以可证伪性为核心的新的研究框架，目的是为了产生更具意义和可靠的可解释性方法。

Oct, 2020

评估可解释性方法的函数解释基准

评估构建自动可解释性方法的基本模块的基准套件FIND，包括与训练神经网络组件类似的函数和相应的描述，表明语言模型仅通过对函数进行黑箱访问，能够推断函数结构，并形成假设、提出实验并根据新数据更新描述，但基于语言模型的描述倾向于捕捉全局函数行为而忽略局部损坏，这些结果表明在应用于实际模型之前，FIND对于表征更复杂的可解释性方法的性能将是有用的。

Sep, 2023

解释性在旁观者的思维中：一种人类可解释表达学习的因果框架

通过数学框架提出了一种获取可解释表示的方法，旨在建立人与算法方面之间的理解性桥梁，并为人类可解释性表示的新研究奠定基础。

Sep, 2023

我们是否已经建造出像人一样思考的机器？

通过一系列的实验，我们评估了当前基于视觉的大型语言模型在直觉物理、因果推理和直观心理领域的表现。我们的研究结果表明，尽管这些模型在处理和解释视觉数据方面表现出显著的能力，但在这些领域仍然不如人类。这些模型对物理定律和因果关系有基本的理解，但缺乏更深入的洞察力-人类认知的一个关键方面。此外，在需要直觉心理理论的任务中，这些模型完全失败。我们的结果强调了将更强大的理解因果关系、物理动力学和社会认知机制整合到现代基于视觉的语言模型中的必要性，并指出了认知启发式评估标准的重要性。

Nov, 2023

定位论文：朝着研究模型表示的新框架

通过文献综述，我们对特征和行为进行了正式化，并强调了它们的重要性和评估，以及在研究表示的机制性解释性方面进行了基本的探索。通过讨论和探索性结果，我们证明了研究表示是一个重要且未被充分研究的领域，当前的机制性解释性方法不足以理解表示，因此推动研究界努力工作于新的研究框架来研究表示。

Feb, 2024

AI安全的机理解释性研究--综述

理解人工智能系统的内部工作对于确保价值对齐和安全至关重要。本综述通过逆向工程神经网络学习的计算机机制和表示，将其转化为人类可理解的算法和概念，从而提供一个细致的，因果性的理解。我们建立了基本概念，如神经激活中编码的知识特征以及有关其表示和计算的假设。我们调查了因果分解模型行为的方法论，并评估了机制解释对人工智能安全性的相关性。我们研究了可扩展性、自动化和全面解释方面的挑战。我们主张明确概念、确立标准，并扩展处理复杂模型和行为以及拓展到视觉和强化学习等领域的技术。机制解释有助于防止人工智能系统变得更强大和不可理解时的灾难性结果。

Apr, 2024

基于认知神经科学启发的人工智能内部解释性框架的立场文件

提出了内部解释能力作为一个新兴领域，旨在揭示人工智能系统的内部机制，尽管如何发展这些机制理论仍存在争议。然而，最近的批评引发了对其对促进人工智能更广泛目标的有用性的质疑。然而，在另一个领域——认知神经科学，我们发现了相似的问题，从中我们汲取了有益的经验教训。基于这些发现，我们提出了一个通用的概念框架，并给出了在AI内部解释性研究中构建机制解释的具体方法论策略。借助这个概念框架，内部解释能力可以抵制批评，使自身在解释人工智能系统方面进入一个有成效的道路。

Jun, 2024

表示形式作为语言：一个信息论解释的框架

通过一种新颖的可解释性方法，该论文使用信息论度量量化了神经模型对输入的表示的结构化程度，从而预测模型的泛化能力，并发现模型的代表性和噪声强度有关。此外，研究还研究了模型大小对表示空间结构的影响。

Jun, 2024

人工神经网络的多层次可解释性：借鉴神经科学的框架和方法

本研究解决了人工神经网络与其外部行为之间的复杂关系问题，提出了多层次分析的框架。作者强调通过使用不同的分析工具在多个层次上理解生物与人工神经系统，从而提供了一种系统的方法来应对神经系统的复杂性，促进对智能系统的统一理解。

Aug, 2024

人工神经网络的多层次可解释性：利用神经科学的框架和方法

本研究针对深度学习系统内部结构与外部行为之间的关系，提出了一种多层次分析的方法，借鉴了神经科学的丰富经验。通过Marr的三层分析框架，研究阐明了人工和生物神经系统如何通过不同的分析工具理解其复杂性，提供了一种系统化的方法来促进对智能系统的统一理解。该工作对深度学习的解释性具有重要的潜在影响。

Aug, 2024