Sep, 2023

评估可解释性方法的函数解释基准

TL;DR评估构建自动可解释性方法的基本模块的基准套件 FIND,包括与训练神经网络组件类似的函数和相应的描述,表明语言模型仅通过对函数进行黑箱访问,能够推断函数结构,并形成假设、提出实验并根据新数据更新描述,但基于语言模型的描述倾向于捕捉全局函数行为而忽略局部损坏,这些结果表明在应用于实际模型之前,FIND 对于表征更复杂的可解释性方法的性能将是有用的。