电路组合:探索基于变压器的语言模型中的模块化结构
本文提出了一种基于学习二进制权重掩码的方法来识别神经网络中负责特定功能的权重和子网,探讨了神经网络中模块化的新趋势以及相关问题如系统化语言任务的普遍性不足。
Oct, 2020
利用模型修剪技术,在视觉和语言领域的各种架构、任务和预训练方案中,研究神经网络是否通过模块化子网络实现子程序的解决方案,结果表明神经网络通常可以展示组合性,避免了专门的符号机制。
Jan, 2023
通过电路分析,揭示了语言模型中行为的机制性可解释性。证明了观察的洞见既适用于特定任务的发现,也适用于一般算法的发现,并通过调整注意头以修复电路来证明了这一过程的相似性。结果表明,大型语言模型的行为可以通过一些可解释的任务通用算法构建模块和计算组件来解释。
Oct, 2023
通过对序列相似性任务的电路分析与比较,我们揭示了语义相关的序列依赖于具有类似角色的共享电路子图,并且共享计算结构的记录有助于更好地预测模型行为、识别错误和更安全的编辑过程,这对于构建更健壮、对齐和可解释的语言模型是一个关键步骤。
Nov, 2023
神经网络模型在各种复杂任务上取得了高性能,但它们所实现的算法往往难以解释。我们提出了一种新的分析技术——电路探测,通过自动发现计算假定的中间变量的低层电路,实现了对模型参数级别的有针对性的切割,从而开展因果分析。我们对简单算术任务上的模型应用了这种方法,证明了它在(1)解密模型所学习的算法,(2)揭示模型内部结构以及(3)追踪电路在训练过程中的发展方面的有效性。我们将电路探测与其他方法在这三个实验中进行比较,发现它在效果上与现有的分析方法相当甚至更加有效。最后,我们在一个真实的应用案例中演示了电路探测的应用,发现了在GPT2-Small和Medium模型中负责主谓一致和反身指代的电路。
Nov, 2023
我们引入了一种发现和应用稀疏特征电路的方法,这些电路是人可解释特征的因果相关子网络,用于解释语言模型的行为。与以前的工作中的电路相反,稀疏特征电路基于细粒度单元,可以提供对预期之外的机制的详细理解,并且在下游任务中非常有用。我们介绍了SHIFT,通过消除人类判断为任务无关的特征,改善了分类器的泛化能力。最后,我们展示了一个完全无监督和可扩展的可解释性流程,用于自动发现模型行为中的成千上万的稀疏特征电路。
Mar, 2024
通过使用转码器,我们成功地将 MLP 子层训练为具有更宽、稀疏激活的 MLP 层,并在稀疏性、忠实度和人类可解释性方面至少与稀疏自编码器 (SAEs) 持平,进而通过 MLP 子层进行基于权重的电路分析,最终成功地解析出 GPT2-small 中的大于电路,并发现转码器在将包含 MLP 的模型计算分解为可解释电路方面具有良好效果。
Jun, 2024
通过知识编辑的视角,我们介绍了一种学习语言模型电路的新方法。通过在GPT2-XL模型中提取电路,使用多样的文本分类数据集和层次关系数据集,我们发现这些电路包含实体知识,但在知识编辑中对新知识的抵抗力高于互补电路。此外,我们研究了电路尺寸的影响,发现理想的电路可能包含模型参数的5%至50%。我们还检查了不同数据集中电路之间的重叠情况,发现中等相似性。总之,我们的研究结果为电路的功能提供了新的见解,并引入了进一步解释性和安全性研究的方向。
Jun, 2024
本文探讨了变换器结构中神经元的模块化和任务专业化,旨在填补对变换器内部机制的理解空白。通过选择性裁剪和MoEfication聚类技术,分析了神经元在不同任务和数据子集中的重叠和专业化情况,发现存在任务特定的神经元簇,这为提升模型的可解释性和效率提供了新的视角。
Aug, 2024
本研究针对现有电路分析无法全面表征语言模型(LM)功能的不足,提出了“记忆电路”的新概念,以独立操控语言模型的记忆读取功能。实验表明,我们识别的技能路径与语言技能相对应,验证了语言技能可通过电路解剖识别的假设,揭示了浅层次与深层次语言技能的分布,并表明复杂技能基于简单技能之上形成。
Oct, 2024