Feb, 2024
CausalGym: 在语言任务上基准测试因果解释方法
CausalGym: Benchmarking causal interpretability methods on linguistic
tasks
TL;DR语言模型对于心理语言学研究具有重要作用,该研究提出了CausalGym框架,通过评估多种解释性方法的因果有效性来研究语言模型的行为,并发现DAS方法在性能上优于其他方法。在此基础上,用pythia模型研究了负极性项许可和填充-间隙依赖这两个困难的语言现象,并分析表明这两个任务的实现机制是通过离散阶段学习而非逐渐学习。