BriefGPT.xyz
Ask
alpha
关键词
circuit discovery
搜索结果 - 2
基于上下文分解的 Transformer 中的机制解释
本文介绍了一种用于 transformers 的上下文分解的解释方法,可以捕捉不同输入特征或源内部组件对最终预测或目标内部组件输出的贡献,用于电路发现等任务,并通过实验验证了其在局部解释方面的出色能力。
PDF
5 days ago
电路意味着什么?知识编辑视角
通过知识编辑的视角,我们介绍了一种学习语言模型电路的新方法。通过在 GPT2-XL 模型中提取电路,使用多样的文本分类数据集和层次关系数据集,我们发现这些电路包含实体知识,但在知识编辑中对新知识的抵抗力高于互补电路。此外,我们研究了电路尺寸
→
PDF
11 days ago
Prev
Next