基于认知神经科学启发的人工智能内部解释性框架的立场文件

ICMLJun, 2024

基于认知神经科学启发的人工智能内部解释性框架的立场文件

Position Paper: An Inner Interpretability Framework for AI Inspired by Lessons from Cognitive Neuroscience

Martina G. Vilas, Federico Adolfi, David Poeppel, Gemma Roig

TL;DR提出了内部解释能力作为一个新兴领域，旨在揭示人工智能系统的内部机制，尽管如何发展这些机制理论仍存在争议。然而，最近的批评引发了对其对促进人工智能更广泛目标的有用性的质疑。然而，在另一个领域 —— 认知神经科学，我们发现了相似的问题，从中我们汲取了有益的经验教训。基于这些发现，我们提出了一个通用的概念框架，并给出了在 AI 内部解释性研究中构建机制解释的具体方法论策略。借助这个概念框架，内部解释能力可以抵制批评，使自身在解释人工智能系统方面进入一个有成效的道路。

Abstract

inner interpretability is a promising emerging field tasked with uncovering the inner mechanisms of ai systems, though how to develop these mechanistic theories is still much debated. Moreover, recent critiques r

inner interpretability ai systems mechanistic theories cognitive neuroscience conceptual framework

发现论文，激发创造

定位论文：朝着研究模型表示的新框架

通过文献综述，我们对特征和行为进行了正式化，并强调了它们的重要性和评估，以及在研究表示的机制性解释性方面进行了基本的探索。通过讨论和探索性结果，我们证明了研究表示是一个重要且未被充分研究的领域，当前的机制性解释性方法不足以理解表示，因此推动研究界努力工作于新的研究框架来研究表示。

Feb, 2024

迈向透明 AI：深度神经网络内部结构解释综述

本文回顾了超过 300 种内部可解释性技术，并引入了一种分类方法，介绍了它们对神经网络的什么部分（权重、神经元、子网络或潜在表示）进行解释，以及它们是在训练期间（内在）还是在训练后（事后）实现的。这篇文章强调了诊断、调试、敌对性和基准测试在未来研究中的重要性，以便使可解释性工具在实际应用中更有用。

Jul, 2022

人工智能的真实火花与内在可解释性的重要性

通过研究 Microsoft 工程师进行的关于 GPT 智能的一篇详尽论文，本文认为现有的黑匣子可解释性研究方法是错误的，并推崇了一种内部可解释性的替代方法，以了解模型的内部激活和权重，以及它们的表示和实现算法，以此认识到智能和理解涉及的过程在意义上是重要的。同时，本文指出了内部可解释性与哲学对智能要求的可信合理的关系，以及如何进一步利用哲学概念来改进内部可解释性的方法，并呼吁哲学家与计算机科学家在未来进行双向的有益交流。

Jan, 2024

AI 安全的机理解释性研究 -- 综述

理解人工智能系统的内部工作对于确保价值对齐和安全至关重要。本综述通过逆向工程神经网络学习的计算机机制和表示，将其转化为人类可理解的算法和概念，从而提供一个细致的，因果性的理解。我们建立了基本概念，如神经激活中编码的知识特征以及有关其表示和计算的假设。我们调查了因果分解模型行为的方法论，并评估了机制解释对人工智能安全性的相关性。我们研究了可扩展性、自动化和全面解释方面的挑战。我们主张明确概念、确立标准，并扩展处理复杂模型和行为以及拓展到视觉和强化学习等领域的技术。机制解释有助于防止人工智能系统变得更强大和不可理解时的灾难性结果。

Apr, 2024

人工智能模型语义可解释性

本研究从广阔的角度观察模型可解释性，超越了机器学习的范畴，涵盖了分布语义学和模糊逻辑等不同的人工智能领域。我们根据模型的性质和它们引入可解释性方面的方法进行分类，并分析每种方法如何影响最终用户。同时指出还需要解决的问题，以提供更以人为本的解释性解决方案。

Jul, 2019

解释性在旁观者的思维中：一种人类可解释表达学习的因果框架

通过数学框架提出了一种获取可解释表示的方法，旨在建立人与算法方面之间的理解性桥梁，并为人类可解释性表示的新研究奠定基础。

Sep, 2023

利用主动推理设计可解释人工智能：透明反思和决策的框架

本文探讨了基于活跃推断和自由能原理开发人类可解释、可理解的人工智能系统的前景，并提出了一个使用活跃推断的可解释 AI 系统架构，其结构设计为可被人类用户解释和审计。

Jun, 2023

可解释的人工智能：理解、可视化和解释深度学习模型

基于深度学习的解释性可视化方法在人工智能领域日益被重视，本文总结了目前解释深度学习模型的最新发展，并提出两种解释预测的方法，并将这些方法用于三个分类任务中进行评估。

Aug, 2017

从神经元到中子：可解释性的案例研究

高维神经网络通过理解机制可解释性的视角提供对低维表示的洞察力，并从中获得人类领域知识的相关见解。通过研究训练用于重现核数据的模型，我们提取出核物理概念作为一个案例研究。

May, 2024

使人工智能可理解：哲学基础

人类和人工智能是否能共享概念并进行交流？《使人工智能变得可理解》展示了意义形而上学的哲学研究如何回答这些问题，Cappelen 和 Dever 利用哲学中的外在主义传统构建了人工智能和人类相互理解的模型，从而改进了哲学传统，给出了有关理论和实践的重要答案，为实现可解释的人工智能迈出了重要的第一步。

Jun, 2024