规模本身不足以提高视觉模型的机理可解释性

Jul, 2023

规模本身不足以提高视觉模型的机理可解释性

Scale Alone Does not Improve Mechanistic Interpretability in Vision Models

Roland S. Zimmermann, Thomas Klein, Wieland Brendel

TL;DR本研究采用心理物理范式研究了多种机器视觉模型的机制可解释性，发现模型的解释性并未因数据集或模型规模的扩大而有所改善，且近代的视觉模型解释性甚至不如近十年前的 GoogLeNet 模型。

Abstract

In light of the recent widespread adoption of ai systems, understanding the internal information processing of neural networks has become increasingly critical. Most recently, →

ai systems neural networks mechanistic interpretability machine vision psychophysical paradigm

发现论文，激发创造

从神经元到中子：可解释性的案例研究

高维神经网络通过理解机制可解释性的视角提供对低维表示的洞察力，并从中获得人类领域知识的相关见解。通过研究训练用于重现核数据的模型，我们提取出核物理概念作为一个案例研究。

May, 2024

通过扩大规模，也许您可以实现与人类相同的视觉体验，达到人类水平的目标识别能力

如果同时扩大数据规模、模型大小和图像分辨率，通过自监督学习可以实现人类级的视觉目标识别能力，而且使用基于掩码自编码器的高效自监督学习算法，可以在低成本的学术预算下进行扩展实验。

Aug, 2023

重新审视语言和视觉中的神经缩放定律

本篇研究介绍一种更严谨的方法来预测深度学习中的规模效益，提供了一种可靠的方法来估计缩放参数并通过发布基准数据集以帮助该领域的研究。

Sep, 2022

使用大型模型对深度视觉神经元进行自动化自然语言解释

通过研究神经元来解释深度神经网络并生成语义解释，以解决目前在此方面的限制、缺乏可伸缩性和适用性的问题。

Oct, 2023

AI 安全的机理解释性研究 -- 综述

理解人工智能系统的内部工作对于确保价值对齐和安全至关重要。本综述通过逆向工程神经网络学习的计算机机制和表示，将其转化为人类可理解的算法和概念，从而提供一个细致的，因果性的理解。我们建立了基本概念，如神经激活中编码的知识特征以及有关其表示和计算的假设。我们调查了因果分解模型行为的方法论，并评估了机制解释对人工智能安全性的相关性。我们研究了可扩展性、自动化和全面解释方面的挑战。我们主张明确概念、确立标准，并扩展处理复杂模型和行为以及拓展到视觉和强化学习等领域的技术。机制解释有助于防止人工智能系统变得更强大和不可理解时的灾难性结果。

Apr, 2024

量化比较可解释计算机视觉模型的心理物理学方法

在这项研究中，作者们使用基于众包的注释任务和心理物理学技术来评估可解释的计算机视觉算法的透明度质量，与没有人类参与的质量度量进行比较，并发现众包实验提供了一种稳健的质量评估方法。同时，文中提到在解释性方法排名、以及对人类是否有用方面，没有人类参与的质量度量与实际情况不符，为了获得对解释性的真实评估，应该在人类 - 机器学习交互的自然环境中进行评估。

Nov, 2019

神经网络中的可解释性部分 - 整体层次结构和概念 - 语义关系

本文介绍了一种名为 Agglomerator 的框架，它可以通过视觉线索提供部分 - 整体层次结构的表示，并组织与类别之间的概念语义层次结构相匹配的输入分布，从而提高神经网络的可解释性。作者在 SmallNORB、MNIST、FashionMNIST、CIFAR-10 和 CIFAR-100 等常见数据集上进行了评估，并提供了比其他最先进方法更易解释的模型。

Mar, 2022

神经网络表示的人工对齐

本研究调查神经网络表示与人类认知表示之间对齐的因素，发现模型规模和架构对齐性没有实质性影响，而训练数据集和目标函数对齐性有更大的影响。研究发现，神经网络表示的线性转换有助于提高与人类相似性判断的一致性，但规模和多样性更大的数据集训练的模型也不能满足人类认知表示的需求。

Nov, 2022

迈向透明 AI：深度神经网络内部结构解释综述

本文回顾了超过 300 种内部可解释性技术，并引入了一种分类方法，介绍了它们对神经网络的什么部分（权重、神经元、子网络或潜在表示）进行解释，以及它们是在训练期间（内在）还是在训练后（事后）实现的。这篇文章强调了诊断、调试、敌对性和基准测试在未来研究中的重要性，以便使可解释性工具在实际应用中更有用。

Jul, 2022

操纵与测量模型可解释性

在高风险领域中，机器学习模型已经被广泛用于辅助决策，而开发可解释的模型的兴趣逐渐增加。然而，是否这些模型能实现预期的效果，我们缺乏实验研究来证明。本研究开展了一系列预先注册的实验，展示了具有不同要素的模型，以调查它们的可解释性。结果表明，模型越透明、特征越少，参与者越能成功地模拟模型的预测，但是参与者并没有更加倾向于紧密关注其预测，而拥有透明的模型却使参与者因信息过载难以检测和修正模型的重大错误。这些结果强调了开发可解释模型时实验测试的重要性。

Feb, 2018