mechanistic interpretability | BriefGPT

关键词mechanistic interpretability

搜索结果 - 43

基于上下文分解的 Transformer 中的机制解释
本文介绍了一种用于 transformers 的上下文分解的解释方法，可以捕捉不同输入特征或源内部组件对最终预测或目标内部组件输出的贡献，用于电路发现等任务，并通过实验验证了其在局部解释方面的出色能力。
PDF3 days ago
在大型语言模型中寻找安全神经元
我们通过从机理解释的角度探索安全对齐的内在机制，重点是识别和分析大语言模型中负责安全行为的安全神经元。我们提出了生成时激活对比来定位这些神经元，并提出了动态激活修复来评估其因果效应。多个最新的大语言模型的实验证明：（1）安全神经元是稀疏而有
PDF14 days ago
跨码器寻找可解释的 LLM 特征电路
通过使用转码器，我们成功地将 MLP 子层训练为具有更宽、稀疏激活的 MLP 层，并在稀疏性、忠实度和人类可解释性方面至少与稀疏自编码器 (SAEs) 持平，进而通过 MLP 子层进行基于权重的电路分析，最终成功地解析出 GPT2-smal
PDF17 days ago
ICML通过机制可解释性为模型性能提供可证明的保证
使用机制性可解释性推导和简明证明模型性能的形式保障，通过形式下界评估小型 Transformer 模型在 Max-of-k 任务上的准确率，并通过多种证明策略量化地展示了机制性理解与性能保障的紧密联系，最终确定了结构缺失噪声的叠加作为使用机
PDF17 days ago
从特征可视化到视觉电路：对抗模型操控的效果
通过提出一种名为 ProxPulse 的新攻击方法，揭示了视觉电路的可操作性问题，这为深度神经网络的机械解释性提供了新的研究方向。
PDFa month ago
ICML从神经元到中子：可解释性的案例研究
高维神经网络通过理解机制可解释性的视角提供对低维表示的洞察力，并从中获得人类领域知识的相关见解。通过研究训练用于重现核数据的模型，我们提取出核物理概念作为一个案例研究。
PDFa month ago
二进制和三进制变压器的机理解释性
研究表明，将二进制和三进制变压器网络应用于大型语言模型能够显著减少内存并提高推理速度，并且研究结果显示，这些网络在学习模块化加法时与全精度变压器网络学习的算法相似，因此无法作为语言模型中更可解释的替代方案。
PDFa month ago
大型语言模型：优秀的自发多语种学习者 —— 多语种标注数据是否必要？
通过多语言对齐方法，本文研究了大型语言模型的多语言能力提升，发现即使在没有注释答案的情况下，仅通过问题翻译数据进行训练的语言模型能够在广泛的未见过的语言中获得显著的性能提升，并利用不同的设置和机理解释方法对多语言场景下的语言模型性能进行了全
PDFa month ago
本地交互基础：在神经网络中识别计算相关和稀疏交互特征
通过将神经网络的激活转换为新的基础 - 局部互动基础（LIB），我们提出了一种新颖的可解释性方法，旨在识别计算特征，通过消除无关的激活和相互作用，以及基于它们对下游计算的重要性对特征进行缩放，生成显示模型中所有计算相关特征和相互作用的交互图
PDF2 months ago
利用损失景观中的蜕变性进行机械解释
通过研究神经网络的权重和激活，以逆向工程神经网络算法为目标，机械可解释性旨在解析神经网络的算法。我们提出了 3 种网络参数退化的方法，并发展了一种指标来识别网络中的模块，以寻求一种对退化不敏感的表示方法，从而使得神经网络更易解释，而且更有可
PDF2 months ago
GPT-2 如何预测缩写词？通过机制解释提取和理解电路
本研究旨在理解 GPT-2 Small 在预测三字母缩写任务中的行为，发现此预测是通过由 8 个注意力头组成的电路来实现的，其中约 5% 的头属于三个不同的作用组，而且这些头主要集中在缩写预测功能上。此外，我们还通过机械解释方法，发现关键的
PDF2 months ago
锚定答案：揭示 GPT-2 在多项选择问题中的位置偏差
通过利用机械解释性方法，研究人员发现并修改 GPT-2 模型内部造成 MCQs 错位偏差的特定数值向量，从而显著提高 GPT-2 模型对 MCQs 的预测准确性。
PDF2 months ago
AI 安全的机理解释性研究 -- 综述
理解人工智能系统的内部工作对于确保价值对齐和安全至关重要。本综述通过逆向工程神经网络学习的计算机机制和表示，将其转化为人类可理解的算法和概念，从而提供一个细致的，因果性的理解。我们建立了基本概念，如神经激活中编码的知识特征以及有关其表示和计
PDF2 months ago
PURE: 通过识别相关电路将多义性神经元转化为纯特征
我们提出了一种方法，通过将多义性神经元分解为多个单义性的 “虚拟” 神经元，从而解开深度神经网络中的多义性，实现了深度神经网络的解释性。
PDF3 months ago
字典学习改善机械解释性中无补丁电路发现：以奥赛罗 - GPT 为例
基于稀疏字典学习和机制解释性，提出了一种电路发现框架，用于从模型激活中提取更多人可理解的特征。该框架能够识别连接大量字典特征的电路，并在渐近复杂度方面具有更高的效率。在合成任务 Othello 的小型 Transformer 中，发现了许多
PDF4 months ago
大型语言模型黑匣子揭秘：整体可解释性的两个视角
通过一种全面解释性的框架，我们提出打开大语言模型的黑匣子，既关注机制可解释性、组件功能和训练动态，又通过隐藏表示进行行为分析，以实现与人类价值相一致的伦理、诚实和可靠推理。
PDF5 months ago
定位论文：朝着研究模型表示的新框架
通过文献综述，我们对特征和行为进行了正式化，并强调了它们的重要性和评估，以及在研究表示的机制性解释性方面进行了基本的探索。通过讨论和探索性结果，我们证明了研究表示是一个重要且未被充分研究的领域，当前的机制性解释性方法不足以理解表示，因此推动
PDF5 months ago
图形张量表示法的机制可解释性简介
图形张量表示法是一种简单的方式来表示张量的线性操作，对于理解现代深度学习系统中的张量操作至关重要，尤其是在试图逆向工程神经网络算法以理解其行为时更是如此。本文通过引入图形张量表示法，并应用于一些分解方法和语言模型理解方法，为理解这些系统提供
PDF5 months ago
人工智能的真实火花与内在可解释性的重要性
通过研究 Microsoft 工程师进行的关于 GPT 智能的一篇详尽论文，本文认为现有的黑匣子可解释性研究方法是错误的，并推崇了一种内部可解释性的替代方法，以了解模型的内部激活和权重，以及它们的表示和实现算法，以此认识到智能和理解涉及的过
PDF5 months ago
GPT2 语言模型中的通用神经元
通过计算 GPT2 模型中神经元激活的成对相关性，研究了不同随机种子下神经元的普遍性，并发现 1-5% 的神经元是普遍的，即这些神经元在相同输入上持续激活。此外，对这些普遍神经元进行了详细研究，发现它们通常具有清晰的解释，并将其归类到几个神
PDF5 months ago