ICMLJun, 2024

基于认知神经科学启发的人工智能内部解释性框架的立场文件

TL;DR提出了内部解释能力作为一个新兴领域,旨在揭示人工智能系统的内部机制,尽管如何发展这些机制理论仍存在争议。然而,最近的批评引发了对其对促进人工智能更广泛目标的有用性的质疑。然而,在另一个领域 —— 认知神经科学,我们发现了相似的问题,从中我们汲取了有益的经验教训。基于这些发现,我们提出了一个通用的概念框架,并给出了在 AI 内部解释性研究中构建机制解释的具体方法论策略。借助这个概念框架,内部解释能力可以抵制批评,使自身在解释人工智能系统方面进入一个有成效的道路。