ALMANACS: 一种用于语言模型解释可解释性的可模拟性基准测试

Dec, 2023

ALMANACS: 一种用于语言模型解释可解释性的可模拟性基准测试

ALMANACS: A Simulatability Benchmark for Language Model Explainability

Edmund Mills, Shiye Su, Stuart Russell, Scott Emmons

TL;DR我们通过使用 ALMANACS 来评估反事实、合理化、注意力和集成梯度解释等方法，发现没有一种解释方法在所有主题上超过无解释控制的模型，因此在 ALMANACS 中开发一种能够辅助模型可模拟性的解释方法仍然是一个挑战。

Abstract

How do we measure the efficacy of language model explainability methods? While many explainability methods have been developed, they are typically evaluated on bespoke tasks, preventing an apples-to-apples comparison. To help fill this gap, we present →

language model explainability methods almanacs explanations simulatability behavior prediction

发现论文，激发创造

漏洞调整模拟能力：模型能否以自然语言生成其行为的非平凡解释？

本研究提出了一种新的评估自然语言生成模型的生成解释质量的方法，利用模型的 “可模拟性” 衡量生成的解释质量，并提供了多个案例研究以及优化生成解释质量的算法。

Oct, 2020

评估可解释 AI：哪些算法解释有助于用户预测模型行为？

本文研究机器学习模型的解释方法对模型可解释性方面的影响，通过两类涉及文本和表格数据的模拟测试，评估了五种解释方法的有效性，表明模型可模拟性在分类表格方面使用 LIME 可以得到改善，而我们的 Prototype 方法在反事实的模拟测试中也是有效的。本文的结果显示，我们需要对评估解释方法的指标进行谨慎处理，并且当前方法仍有很大的改进空间。

May, 2020

MaNtLE：无需模型的自然语言解释器

本文介绍了 MaNtLE，一个模型无关的自然语言解释器，在结构化分类任务中分析多个分类器预测，并生成忠实的自然语言解释器，模拟的用户研究表明，MaNtLE 生成的解释器平均比 LIME 和 Anchors 解释器忠实度高至少 11％。

May, 2023

模型是否自我解释：自然语言解释的反事实仿真性

本篇论文中，我们提出了一种新的自然语言解释评估方法 —— 反事实模拟性。实验结果显示，当前大型语言模型 (LLMs) 的解释精度相对较低，精度与可信度相关性也不高。因此，单纯依赖人类评判可能不足以解决问题。

Jul, 2023

CALIME：基于因果关系的本地可解释模型无关解释

本篇论文提出一种新颖的扩展方法，将因果关系显式编码进生成输入实例的数据以解释增加信任度和帮助用户评估解释质量的 XAI 方法，并通过实验表明该方法对于拟合黑匣子和解释稳定性均达到了比初始方法更优越的表现。

Dec, 2022

关于衡量自然语言解释的可信度

大型语言模型 (LLMs) 可以通过后期或思维链 (CoT) 解释自己的预测结果，但模型可能会提供合理但不准确的解释。本文对现有的忠诚度测试进行了评估，认为这些测试实际上只测量了模型输出的自我一致性，而非其内部工作的忠诚度。作者提出了基于自我一致性的新测量 CC-SHAP，通过比较模型的输入贡献与答案预测及生成解释之间的一致性，从而更准确地衡量模型的忠诚度。

Nov, 2023

CALM：一个综合评估语言模型偏见的多任务基准

评估语言模型偏见的全面评估基准数据集（CALM）是用于量化与比较语言模型社会人口统计偏见的重要资源，通过整合现有数据集并构建包含 78,400 个样例的 244 个模板的数据集，CALM 数据集更具多样性和可靠性，能更好地评估语言模型的广度和偏见。

Aug, 2023

使用句法结构评估和解释大型语言模型在代码中的应用

ASTxplainer 是针对代码 LLMs 的一种可解释性方法，不仅能提供 LLM 评估的新方法，还能通过可视化 LLM 预测结果帮助终端用户理解模型预测。通过在常用的 GitHub 项目上进行实证评估和用户研究，研究结果表明 ASTxplainer 有潜力深入研究 LLM 的效能，并帮助终端用户理解预测结果。

Aug, 2023

基于自编码语言模型的集成学习用于常识验证和解释

本文提出了一种基于自编码语言模型的集成学习方法，称为 ALMEn，用于常识验证和解释，在 SemEval-2020 任务 4 的基准数据集上表现良好，可区分违反常识的自然语言陈述并正确识别其原因，验证和解释选择子任务的准确性分别达到 97.9％和 95.4％，超过了现有的最先进模型。

Apr, 2022

用于对源代码进行大型语言模型解读的因果研究基准测试

通过引入名为 Galeras 的基准测试策略，将统计学严谨性引入 LLMs 的评估，该论文展示了因果推断评估在降低混杂偏差方面的实践成果，为分析准确度指标提供了可解释性的解决方案。

Aug, 2023