模型大小对通过 LIME 解释 LLM 的影响

ICLRMay, 2024

模型大小对通过 LIME 解释 LLM 的影响

The Effect of Model Size on LLM Post-hoc Explainability via LIME

Henning Heyen, Amy Widdicombe, Noah Y. Siegel, Maria Perez-Ortiz, Philip Treleaven

TL;DR通过对四个不同尺寸的 DeBERTaV3 模型在自然语言推理和零样本分类任务上的 LIME 解释进行评估，发现模型尺寸的增加并不与合理性相关，尽管模型性能有所提高，这表明随着模型尺寸的增加，LIME 解释与模型内部过程之间存在不一致。我们的结果进一步指出在自然语言推理环境中对于准确性度量的限制。

Abstract

large language models (LLMs) are becoming bigger to boost performance. However, little is known about how explainability is affected by this trend. This work explores →

large language models explainability lime explanations model size faithfulness metrics

发现论文，激发创造

大型语言模型是事后解释器吗？

利用大型语言模型和上下文学习，本研究提出了一种新的解释框架，展示了语言模型在解释其他预测模型方面的有效性，并通过实验证明了其与现有解释技术相媲美的性能，从而在可解释的人工智能领域开辟了新的研究前沿。

Oct, 2023

S-LIME: 模型解释的稳定化 LIME

研究黑盒机器学习模型的解释方法，提出一种基于中心极限定理的假设测试框架方法，名为 S-LIME，以保证解释结果的稳定性，实验结果在模拟和真实数据集上表明该方法的有效性。

Jun, 2021

大型语言模型作为忠实的解释器

介绍了一种提高大型语言模型的自然语言解释质量的生成解释框架 xLLM，该框架通过评估器和迭代优化过程来最大化生成解释的忠实度分数，实验证明 xLLM 可以显著提高生成解释的忠实度。

Feb, 2024

大型语言模型的可解释性概述

对大型语言模型的解释技术进行分类和总结，并讨论了这些技术在训练范式、生成局部解释和全局解释方面的应用以及评估指标、调试模型和提高性能的挑战和机会。

Sep, 2023

大型语言模型修剪

本研究提出了一种针对 LLMs 的模型修剪技术，强调深度学习模型的可解释性，并通过互信息估计和调参来指导修剪过程。同时，还探讨了大规模模型和小规模模型的修剪差异，并展示了所提出模型相对于现有模型的优越性。

May, 2024

探索大型语言模型用于代码解释

使用各种大型语言模型自动生成代码片段的自然语言摘要，研究结果表明，代码语言模型优于其通用模型，而零 - shot 方法在训练集和测试集之间分布不同的数据集上取得了更好的结果。

Oct, 2023

大语言模型时代的可解释性重新思考

可解释机器学习与大型语言模型相结合，评估解释方法并提出使用语言模型分析数据集和生成交互式解释的两个研究重点。

Jan, 2024

从理解到应用：关于大型语言模型可解释性的调查

本文探讨大型语言模型（LLMs）的可解释性领域，强调了增强 LLMs 可解释性的必要性，重点关注预训练的基于 Transformer 的 LLMs，如 LLaMA，以及改善模型透明度和可靠性的解释性方法和评估方法的分类与讨论。

Jan, 2024

黑匣子 NLP 模型的解释：一项调查

本文提出了一种基于中心极限定理的假设检验框架以确定所需扰动点的数量，从而保障解释稳定性的方法 S-LIME，以解决黑箱模型的可解释性问题。对模拟数据集和实际数据集进行的实验表明了该方法的有效性。

Mar, 2022

MaNtLE：无需模型的自然语言解释器

本文介绍了 MaNtLE，一个模型无关的自然语言解释器，在结构化分类任务中分析多个分类器预测，并生成忠实的自然语言解释器，模拟的用户研究表明，MaNtLE 生成的解释器平均比 LIME 和 Anchors 解释器忠实度高至少 11％。

May, 2023