评估可解释性方法的函数解释基准

Sep, 2023

评估可解释性方法的函数解释基准

A Function Interpretation Benchmark for Evaluating Interpretability Methods

Sarah Schwettmann, Tamar Rott Shaham, Joanna Materzynska, Neil Chowdhury, Shuang Li...

TL;DR评估构建自动可解释性方法的基本模块的基准套件 FIND，包括与训练神经网络组件类似的函数和相应的描述，表明语言模型仅通过对函数进行黑箱访问，能够推断函数结构，并形成假设、提出实验并根据新数据更新描述，但基于语言模型的描述倾向于捕捉全局函数行为而忽略局部损坏，这些结果表明在应用于实际模型之前，FIND 对于表征更复杂的可解释性方法的性能将是有用的。

Abstract

labeling neural network submodules with human-legible descriptions is useful for many downstream tasks: such descriptions can surface failures, guide interventions, and perhaps even explain important model behavi

labeling neural network submodules automated interpretability methods benchmark suite function behavior

发现论文，激发创造

用于神经 NLP 的精细可解释性评估基准

本文提出了一种新的基准来评估神经网络模型和显著性方法的解释能力，其中包含英文和中文标注数据以及用于评估解释能力的标记。实验结果揭示了三种模型和三种显著性方法的解释能力的优劣，希望这个基准可以促进建立值得信赖的系统的研究。

May, 2022

利用影响函数解释黑盒预测并揭示数据畸形

该研究探讨使用影响函数解释 NLP 模型的决策，并与基于词汇显著性的方法进行比较。该方法被发现特别适用于自然语言推理这样复杂的任务，并且还开发了一种基于影响函数的新的定量衡量方法，可以揭示训练数据中的人为制品。

May, 2020

功能学习与规范指令

利用规范指令和测试套件，本文分析了功能学习的无微调方法，小模型很难遵循规范指令，但大模型（> 3B params.）能够从规范中受益并在不同功能上广义理想行为。

Nov, 2023

模型可解释性的人类评估的挑战与机遇

本文提出了 “描述性解释” 和 “说服性解释” 的区别，讨论了功能解释与认知功能和用户偏好可能相关的推理，并提出了两个研究方向来消除认知功能和解释模型之间的歧义，保持准确性和可解释性之间的权衡控制。

Nov, 2017

为深度神经网络基准测试可解释性工具

本文提出 Trojan rediscovery 作为一项基准测试任务，以评估可解释性工具生成工程相关见解的实用价值，并设计了两种基准测试方法。最终将这些方法应用到 16 个特征归因 / 显著性方法和 9 个特征合成方法中，发现了现有工具之间的巨大差异，并指出了未来研究的方向。

Feb, 2023

F-Eval: 使用精细评估方法评估基本能力

我们提出了 F-Eval，这是一个双语评估基准，旨在评估大型语言模型的基本能力，包括表达能力、常识和逻辑。我们进行了 13 个先进 LLM 的评估，结果显示我们的评估方法与其他评估者相比具有更高的相关系数和更大的区别，并讨论了不同模型大小、维度和归一化方法的影响。我们期望 F-Eval 能促进对 LLMs 基本能力的研究。

Jan, 2024

学习黑盒外：可解释模型的追求

该论文提出了一种使用 Meijer G 函数的黑盒函数连续全局解释算法来解决机器学习模型可解释性问题，通过实验结果证明该算法可以高度准确地表示特征和特征交互的相对重要性。

Nov, 2020

面向预训练语言模型的可解释性评估基准

本文提出一种基于英文与中文标注数据的新型评估基准，旨在测试预训练语言模型在语法、语义、知识、推理和计算等多个方面的能力，并提供满足充分性和紧凑性的标注标记级别的理由，以及人性化的实例扰动，从而使用照常理性度量：诚实度的角度。实验结果表明，预训练语言模型在知识和计算方面表现非常糟糕；尤其是在理由较短的情况下，其所有维度上的可信度都远远不足够，并且在语法感知数据上评估的预训练语言模型不稳健。

Jul, 2022

可解释元学习框架

该论文提出了一种可解释的元学习框架 FIND，它不仅可以解释元学习算法选择的推荐结果，还可以提供与业务场景相结合的特定数据集上推荐算法性能的更完整和准确的解释。该框架的有效性和正确性得到了广泛实验的证明。

May, 2022

Proto-lm: 基于原型网络的大型语言模型内置可解释性框架

利用新型方法 proto-lm，在维持性能竞争力的同时，使大语言模型具备了解释性，为实现可解释性的模型铺平了道路。

Nov, 2023