- GPT2 语言模型中的通用神经元
通过计算 GPT2 模型中神经元激活的成对相关性,研究了不同随机种子下神经元的普遍性,并发现 1-5% 的神经元是普遍的,即这些神经元在相同输入上持续激活。此外,对这些普遍神经元进行了详细研究,发现它们通常具有清晰的解释,并将其归类到几个神 - 评估基于脑启发的模块化训练在机制可解释性的自动电路发现中的应用
研究评估了一种称为 Brain-Inspired Modular Training (BIMT) 的新方法,通过改善神经网络的可解释性,显著提高了自动电路发现的效率和质量,同时超越了现有模型在电路质量、发现时间和稀疏性方面的性能。
- 可观察传播:揭示变压器中特征向量的高效数据方法
本文介绍了一种称为 “ObservablePropagation” 的新方法,用于在计算给定任务时找到变压器语言模型使用的线性特征,具有很少的数据,结果表明 ObservablePropagation 在低数据范围内优于传统方法,可以更好地 - 继任头:野外中的重复可解释注意力头
通过对继任头在大型语言模型中的行为进行分析,我们发现它们实现了对不同体系结构共同的抽象表达。我们通过对这些特征进行向量运算,修改头的行为并理解了大型语言模型中数字表示的内部机制。
- 利用超网络生成可解释的网络
通过使用超网络生成未知算法的可解释网络,控制网络复杂性以及对输入维度的系统化泛化进行了研究。
- 寻找的子空间是否是这个?子空间激活修补的可解释性幻觉
机械性可解释性旨在通过特定的可解释特征来理解模型行为,最近的研究探讨了亚空间干预作为同时操纵模型行为和将特征归因于给定亚空间的方式。然而,我们证明了这两个目标是不同的,可能会导致一种虚假的解释感觉。即使亚空间干预使模型的输出表现得好像特征的 - 在 Llama 中定位撒谎:通过提示、探究和修补解析对真假问题上的指导诚实行为
通过对大型语言模型进行研究,本文探究了指示性不诚实,即明确要求 LLaMA-2-70b-chat 撒谎,通过提示工程方法找到了最能引起撒谎行为的提示语,并使用机械性可解释性方法定位了网络中发生这种行为的位置,在这五个层中找出 46 个特别重 - 在 Transformer 语言模型中的电路组件重用
通过电路分析,揭示了语言模型中行为的机制性可解释性。证明了观察的洞见既适用于特定任务的发现,也适用于一般算法的发现,并通过调整注意头以修复电路来证明了这一过程的相似性。结果表明,大型语言模型的行为可以通过一些可解释的任务通用算法构建模块和计 - 语言模型激活修复的最佳实践:度量与方法
我们系统地研究了激活补丁技术的方法学细节,包括评估指标和数据污染方法,并发现这些超参数的变化可能导致差异化的解释结果。根据经验观察,我们提出了为什么应该优先选择某些指标或方法的概念性论证,并最终对激活补丁技术提供了最佳实践建议。
- 可证明安全系统:控制可达人工通用智能的唯一路径
通过利用先进的人工智能进行形式验证和机械解释,我们描述了人类安全繁荣与强大人工通用智能(AGIs)共存的路径,并主张这是唯一能确保安全可控 AGI 的途径,提出了一系列能推动这个积极结果的挑战问题,并邀请读者一同参与这项工作。
- ICCV迈向视觉语言机制可解释性:一种用于 BLIP 的因果追踪工具
通过引入一种单模态因果追踪工具,我们适应了 BLIP 以研究图像条件下文本生成的神经机制,并在视觉问答数据集上展示了我们的方法,强调了较晚层表示对所有标记的因果相关性。此外,我们将我们的 BLIP 因果追踪工具开源,以便社区进一步探索视觉语 - 规模本身不足以提高视觉模型的机理可解释性
本研究采用心理物理范式研究了多种机器视觉模型的机制可解释性,发现模型的解释性并未因数据集或模型规模的扩大而有所改善,且近代的视觉模型解释性甚至不如近十年前的 GoogLeNet 模型。
- 超越几何:使用动态相似性分析比较神经电路计算的时间结构
使用基于数据驱动的动态系统理论的最新进展和一种新的相似度度量方法,我们能够比较两个递归神经网络并识别它们之间的动态结构,同时能以无监督的方式区分学习规则。
- 学习 Transformer 程序
本文介绍的一种采用编程语言设计的可调试 Transformer 程序可以替代机器学习传统编写的 Transformers 来解决一系列算法问题和 NLP 任务。
- 语言模型实现简单的 Word2Vec 风格的向量算术
本文研究了语言模型在上下文学习中的机制和解决问题的策略,发现虽然它们规模巨大和复杂,但其实有时候它们会利用简单向量算术的机制编码抽象关系,并且利用前馈网络的简单线性更新算法来完成各种任务,在一定程度上具有可解释性。
- 关于双线性层的技术注释 —— 可解释性
本文的研究关注于使用更容易数学分析的层次结构,例如二次线性层,来构建更加容易解读的神经网络,以达到机制可解释性的目标,并提供深度安全洞见
- 眼见为实:面向机械解释性的脑启发式模块化训练
本文介绍了一种类脑的模块化训练方法,称为 BIMT,可以使神经网络更具有模块化和可解释性,能够应用于多个任务,如符号公式,决策边界和算法数据集的组合结构,可以通过裸眼直接看到模块,以补充当前机械可解释性策略。
- 实现自动电路发现以达到机理可解释性
本文提出了一种名为 Automatic Circuit DisCovery (ACDC) 的算法,用于自动识别网络中的重要单元,通过在神经网络进行数据集、指标和单元的研究,可理解每个神经网络区域的功能及其组成的电路。
- 用概念向量解开神经元表示
研究为了实现模型机制性可解释性,提出了一种方法将多义神经元解离成概念向量来达到单一概念的表征,该方法可以根据用户所需的概念级别寻找精细的概念,分析显示多义神经元可以分解成神经元的线性组合的方向,评估表明找到的概念向量编码了连贯的人类可理解的 - 普适性的玩具模型:逆向工程网络如何学习群操作
通过数学表示理论,我们研究了神经网络如何学习计算群组合,发现使用我们提出的新算法,网络可以完全表示广泛的线路和特征,但对于给定的网络,学习的特定线路以及它们的顺序是任意的。