BriefGPT.xyz
Ask
alpha
关键词
causal efficacy
搜索结果 - 2
CausalGym: 在语言任务上基准测试因果解释方法
语言模型对于心理语言学研究具有重要作用,该研究提出了 CausalGym 框架,通过评估多种解释性方法的因果有效性来研究语言模型的行为,并发现 DAS 方法在性能上优于其他方法。在此基础上,用 pythia 模型研究了负极性项许可和填充 -
→
PDF
5 months ago
严格评估神经元的自然语言解释
自然语言是解释大型语言模型如何处理和存储信息的一种吸引人的媒介,然而评估这种解释的忠实度是具有挑战性的。我们开发了两种模式的自然语言解释评估方法,以评估声称单个神经元在文本输入中表示概念的解释的真实性。我们将此框架应用于 Bills 等人
→
PDF
10 months ago
Prev
Next