电路分析可解释性是否具有可扩展性？来自琪尼兔的多项选择能力的证据

Jul, 2023

电路分析可解释性是否具有可扩展性？来自琪尼兔的多项选择能力的证据

Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla

Tom Lieberum, Matthew Rahtz, János Kramár, Geoffrey Irving, Rohin Shah...

TL;DR电路分析是理解语言模型内部机制的一种有潜力的技术，通过在 70B Chinchilla 模型中进行案例研究，我们发现现有的逻辑归因、注意力模式可视化和激活修补技术在 Chinchilla 上具有可扩展性，并能够识别和分类一小组输出节点（注意力头和 MLPs）。在研究多项选择题回答过程中，我们进一步研究了 “正确字母” 注意力头的类别，旨在理解其特征的语义，但结果参差不齐。

Abstract

\emph{circuit analysis} is a promising technique for understanding the internal mechanisms of language models. However, existing analyses are done in small models far from the state of the art. To address this, w

circuit analysis language models chinchilla model multiple-choice question answering attention heads

发现论文，激发创造

在 Transformer 语言模型中的电路组件重用

通过电路分析，揭示了语言模型中行为的机制性可解释性。证明了观察的洞见既适用于特定任务的发现，也适用于一般算法的发现，并通过调整注意头以修复电路来证明了这一过程的相似性。结果表明，大型语言模型的行为可以通过一些可解释的任务通用算法构建模块和计算组件来解释。

Oct, 2023

超越 Chinchilla-Optimal：考虑推理在语言模型扩展规律中的影响

基于大型语言模型（LLM）的扩展规律是根据参数数量和训练数据的增加估计模型质量的经验公式。然而，这些公式，包括流行的 DeepMind Chinchilla 扩展规律，忽略了推理成本。我们修改了 Chinchilla 扩展规律，以计算训练和部署具有特定质量和推理需求的模型的最佳 LLM 参数数量和预训练数据大小。我们从计算预算和真实成本的角度进行分析，发现预计具有相当大的推理需求（约 10 亿个请求）的 LLM 研究人员应该训练比 Chinchilla-optimal 更小且更长的模型。

Dec, 2023

学会阐述：基于思维链的多模态推理用于科学问答

利用多模态多选问题和对应的讲座和解释构建科学问题回答 (ScienceQA) 基准测试，证明思路链在语言模型中的实用性，并通过在 GPT-3 上实现 18.96% 的 few-shot leap 提高上界；证明与人类类似，从解释中受益，可以借少训练数据实现相同的性能

Sep, 2022

电路意味着什么？知识编辑视角

通过知识编辑的视角，我们介绍了一种学习语言模型电路的新方法。通过在 GPT2-XL 模型中提取电路，使用多样的文本分类数据集和层次关系数据集，我们发现这些电路包含实体知识，但在知识编辑中对新知识的抵抗力高于互补电路。此外，我们研究了电路尺寸的影响，发现理想的电路可能包含模型参数的 5% 至 50%。我们还检查了不同数据集中电路之间的重叠情况，发现中等相似性。总之，我们的研究结果为电路的功能提供了新的见解，并引入了进一步解释性和安全性研究的方向。

Jun, 2024

协调 Kaplan 和 Chinchilla 比例定律

该研究重点研究了 transformers 在语言预测任务中的缩放行为，探讨了参数设置和计算预算对模型性能的影响，并解释了 Kaplan 等人估计过高的原因。

Jun, 2024

关注答案选项并不总是意味着高的问题回答准确率

研究了大型语言模型的注意力问题对其在多项选择任务中性能的影响，提出了一种简单有效的增加注意力的方法，并得出了一些实用的结论。

May, 2023

跨码器寻找可解释的 LLM 特征电路

通过使用转码器，我们成功地将 MLP 子层训练为具有更宽、稀疏激活的 MLP 层，并在稀疏性、忠实度和人类可解释性方面至少与稀疏自编码器 (SAEs) 持平，进而通过 MLP 子层进行基于权重的电路分析，最终成功地解析出 GPT2-small 中的大于电路，并发现转码器在将包含 MLP 的模型计算分解为可解释电路方面具有良好效果。

Jun, 2024

预训练 Transformer 中的知识传递

研究人员通过深入研究语言模型的计算图，发现知识电路在表达特定知识方面起到了重要作用。他们还评估了当前知识编辑技术对这些知识电路的影响，并利用知识电路分析和解释语言模型的行为。这些研究为我们理解 Transformer 的工作原理以及指导知识编辑的改进设计提供了深入的见解。

May, 2024

发现具有期望特性的变量绑定电路

我们介绍了一种方法，通过指定模型执行特定子任务的一组演化属性，自动识别执行该子任务的模型组件，作为概念验证，我们将该方法应用于自动发现 LLaMA-13B 中的共享变量绑定电路，成功将变量绑定定位到仅有的 9 个注意力头和最终记号的一个 MLP。

Jul, 2023

COCKATIEL：一种用于 NLP 任务神经网络分类器解释的连续概念排名可解释元素的属性方法

本文介绍了 COCKATIEL 技术，它是一种后置的、基于概念的、模型无关的 XAI 技术，使用 NMF 和敏感性分析从 NLP 分类任务的神经网络模型的最后一层生成有意义的解释，无需牺牲模型准确性或训练新模型，并在单方面和多方面情感分析任务中展示其优越的能力。

May, 2023