Jan, 2023

评估自然语言处理模型的神经元解释方法

TL;DR该研究提出了一种评估框架,用于比较不同神经元解释方法,通过该框架,可以评估任何新的神经元解释方法,通过与其他大多数方法的兼容性来评估其性能。