Jun, 2024

电路意味着什么?知识编辑视角

TL;DR通过知识编辑的视角,我们介绍了一种学习语言模型电路的新方法。通过在 GPT2-XL 模型中提取电路,使用多样的文本分类数据集和层次关系数据集,我们发现这些电路包含实体知识,但在知识编辑中对新知识的抵抗力高于互补电路。此外,我们研究了电路尺寸的影响,发现理想的电路可能包含模型参数的 5% 至 50%。我们还检查了不同数据集中电路之间的重叠情况,发现中等相似性。总之,我们的研究结果为电路的功能提供了新的见解,并引入了进一步解释性和安全性研究的方向。