通过机制可解释性为模型性能提供可证明的保证

ICMLJun, 2024

通过机制可解释性为模型性能提供可证明的保证

Provable Guarantees for Model Performance via Mechanistic Interpretability

Jason Gross, Rajashree Agrawal, Thomas Kwa, Euan Ong, Chun Hei Yip...

TL;DR使用机制性可解释性推导和简明证明模型性能的形式保障，通过形式下界评估小型 Transformer 模型在 Max-of-k 任务上的准确率，并通过多种证明策略量化地展示了机制性理解与性能保障的紧密联系，最终确定了结构缺失噪声的叠加作为使用机制性可解释性生成简明证明的关键挑战。

Abstract

In this work, we propose using mechanistic interpretability -- techniques for reverse engineering model weights into human-interpretable algorithms -- to derive and compactly prove formal guarantees on

mechanistic interpretability model performance formal guarantees proof strategies compounding structureless noise

发现论文，激发创造

从神经元到中子：可解释性的案例研究

高维神经网络通过理解机制可解释性的视角提供对低维表示的洞察力，并从中获得人类领域知识的相关见解。通过研究训练用于重现核数据的模型，我们提取出核物理概念作为一个案例研究。

May, 2024

AI 安全的机理解释性研究 -- 综述

理解人工智能系统的内部工作对于确保价值对齐和安全至关重要。本综述通过逆向工程神经网络学习的计算机机制和表示，将其转化为人类可理解的算法和概念，从而提供一个细致的，因果性的理解。我们建立了基本概念，如神经激活中编码的知识特征以及有关其表示和计算的假设。我们调查了因果分解模型行为的方法论，并评估了机制解释对人工智能安全性的相关性。我们研究了可扩展性、自动化和全面解释方面的挑战。我们主张明确概念、确立标准，并扩展处理复杂模型和行为以及拓展到视觉和强化学习等领域的技术。机制解释有助于防止人工智能系统变得更强大和不可理解时的灾难性结果。

Apr, 2024

定位论文：朝着研究模型表示的新框架

通过文献综述，我们对特征和行为进行了正式化，并强调了它们的重要性和评估，以及在研究表示的机制性解释性方面进行了基本的探索。通过讨论和探索性结果，我们证明了研究表示是一个重要且未被充分研究的领域，当前的机制性解释性方法不足以理解表示，因此推动研究界努力工作于新的研究框架来研究表示。

Feb, 2024

学习 Transformer 程序

本文介绍的一种采用编程语言设计的可调试 Transformer 程序可以替代机器学习传统编写的 Transformers 来解决一系列算法问题和 NLP 任务。

Jun, 2023

量化机器学习系统的可解释性和可信度

本文提出了一种量化解释性方法质量的量化度量，并在众包实验中通过信息传输速率得到了实证证据，从而说明解释性方法的价值。同时，还提出了一种信任度量，以检测人类决策是否过度偏向机器学习预测。

Jan, 2019

可解释性的代价

本文提出一个基于数学框架的方法，构建以逐步可解释的模型。我们演示了应用于实际和合成数据集的实用算法，并定量化了 “可解释性” 的 “价格” 与预测准确性的权衡。

Jul, 2019

模型可解释性的人类评估的挑战与机遇

本文提出了 “描述性解释” 和 “说服性解释” 的区别，讨论了功能解释与认知功能和用户偏好可能相关的推理，并提出了两个研究方向来消除认知功能和解释模型之间的歧义，保持准确性和可解释性之间的权衡控制。

Nov, 2017

可解释性作为统计推论

通过统计推断方法构建了一种概率模型，通过学习模型参数和使用神经网络选择器来实现解释性预测，并利用新数据集进行了实验验证，证明了使用多重插补提供了更合理的解释。

Dec, 2022

基于有界 Dyck 文法的研究案例：变压器使用短视方法不可解释

研究关注于解释性方法，通过检查模型的不同方面（例如权重矩阵或注意力模式）来理解训练模型（例如 Transformer）实现的算法。通过理论结果和对合成数据的仔细控制实验的组合，我们对专注于模型的个别部分而不是整个网络的方法提出了批判性观点。我们使用学习（有界）Dyck 语言的简单合成设置来理论上展示了解决此任务的模型集合满足的结构特征（基于形式语言的思想，即泵引理）并证明了最佳解集合具有丰富的定性特点；特定情况下，单层的注意力模式可以 “几乎随机化”，同时保持网络的功能性。通过大量实验证明了这些结论并不仅仅是理论产物：即使在严格约束模型架构的情况下，经过标准训练也可以得到截然不同的解决方案。因此，基于检查 Transformer 中的个别头部或权重矩阵的解释性声明可能是误导性的。

Dec, 2023

一个关于训练于符号多步推理任务的 Transformer 的机制分析

通过对合成推理任务进行综合机械分析，我们鉴定了一组可解释的机制，这个模型用来解决任务，并使用相关和因果证据验证了我们的发现。我们的结果表明，它实现了一组深度有限的并行循环机制，并将中间结果存储在选择的令牌位置，我们期望我们在合成环境中鉴定的这些模式可以为理解变压器的更广泛操作原理提供有价值的见解。

Feb, 2024