BriefGPT.xyz
Ask
alpha
关键词
sparse feature circuits
搜索结果 - 1
稀疏特征电路:在语言模型中发现和编辑可解释性因果图
我们引入了一种发现和应用稀疏特征电路的方法,这些电路是人可解释特征的因果相关子网络,用于解释语言模型的行为。与以前的工作中的电路相反,稀疏特征电路基于细粒度单元,可以提供对预期之外的机制的详细理解,并且在下游任务中非常有用。我们介绍了 SH
→
PDF
3 months ago
Prev
Next