基于 Transformer 的语言模型的机制可解释性实用综述

Jul, 2024

基于 Transformer 的语言模型的机制可解释性实用综述

A Practical Review of Mechanistic Interpretability for Transformer-Based Language Models

Daking Rai, Yilun Zhou, Shi Feng, Abulhair Saparov, Ziyu Yao

TL;DR机械解释性是一种新兴的解释性子领域，通过反向工程其内部计算来理解神经网络模型。本文为了填补这一领域的空白，提出了一份全面的调查报告，概述了机械解释性的研究对象、调查技术、评估结果、重要发现和应用，以及为新手提供的指南。此外，还指出了该领域存在的当前差距，并讨论了潜在的未来发展方向。

Abstract

mechanistic interpretability (MI) is an emerging sub-field of interpretability that seeks to understand a neural network model by reverse-engineering its internal computations. Recently, MI has garnered significa

mechanistic interpretability neural network model transformer-based language models survey future directions

发现论文，激发创造

定位论文：朝着研究模型表示的新框架

通过文献综述，我们对特征和行为进行了正式化，并强调了它们的重要性和评估，以及在研究表示的机制性解释性方面进行了基本的探索。通过讨论和探索性结果，我们证明了研究表示是一个重要且未被充分研究的领域，当前的机制性解释性方法不足以理解表示，因此推动研究界努力工作于新的研究框架来研究表示。

Feb, 2024

从神经元到中子：可解释性的案例研究

高维神经网络通过理解机制可解释性的视角提供对低维表示的洞察力，并从中获得人类领域知识的相关见解。通过研究训练用于重现核数据的模型，我们提取出核物理概念作为一个案例研究。

May, 2024

AI 安全的机理解释性研究 -- 综述

理解人工智能系统的内部工作对于确保价值对齐和安全至关重要。本综述通过逆向工程神经网络学习的计算机机制和表示，将其转化为人类可理解的算法和概念，从而提供一个细致的，因果性的理解。我们建立了基本概念，如神经激活中编码的知识特征以及有关其表示和计算的假设。我们调查了因果分解模型行为的方法论，并评估了机制解释对人工智能安全性的相关性。我们研究了可扩展性、自动化和全面解释方面的挑战。我们主张明确概念、确立标准，并扩展处理复杂模型和行为以及拓展到视觉和强化学习等领域的技术。机制解释有助于防止人工智能系统变得更强大和不可理解时的灾难性结果。

Apr, 2024

基于 Transformer 的语言模型内部工作原理初探

这篇论文提供了对 Transformer-based 语言模型内部工作进行解释的当前技术的简明技术介绍，重点讨论生成式只解码器架构。我们最后总结了这些模型实现的已知内部机制的综合概述，揭示了该领域中流行方法和活跃研究方向之间的联系。

Apr, 2024

大语言模型时代的可解释性重新思考

可解释机器学习与大型语言模型相结合，评估解释方法并提出使用语言模型分析数据集和生成交互式解释的两个研究重点。

Jan, 2024

评估基于脑启发的模块化训练在机制可解释性的自动电路发现中的应用

研究评估了一种称为 Brain-Inspired Modular Training (BIMT) 的新方法，通过改善神经网络的可解释性，显著提高了自动电路发现的效率和质量，同时超越了现有模型在电路质量、发现时间和稀疏性方面的性能。

Jan, 2024

通过机制可解释性为模型性能提供可证明的保证

使用机制性可解释性推导和简明证明模型性能的形式保障，通过形式下界评估小型 Transformer 模型在 Max-of-k 任务上的准确率，并通过多种证明策略量化地展示了机制性理解与性能保障的紧密联系，最终确定了结构缺失噪声的叠加作为使用机制性可解释性生成简明证明的关键挑战。

Jun, 2024

自然语言生成模型中的间接对象识别电路实现及其解释性

本文通过探究 GPT-2 small 在间接宾语识别等自然语言任务中的表现来解释仿真学习模型的行为，其中提及了 26 种注意力头，本研究是目前规模最大的一次试图从机器学习模型的内部组件入手逆向工程自然行为。我们以及利用了因果干预等解释性方法对我们的解释进行了可靠性评估，工作证明了对大型机器学习模型的机械理解是可行的。

Nov, 2022

从理解到应用：关于大型语言模型可解释性的调查

本文探讨大型语言模型（LLMs）的可解释性领域，强调了增强 LLMs 可解释性的必要性，重点关注预训练的基于 Transformer 的 LLMs，如 LLaMA，以及改善模型透明度和可靠性的解释性方法和评估方法的分类与讨论。

Jan, 2024

大型语言模型的可解释性概述

对大型语言模型的解释技术进行分类和总结，并讨论了这些技术在训练范式、生成局部解释和全局解释方面的应用以及评估指标、调试模型和提高性能的挑战和机会。

Sep, 2023