大型语言模型的可解释性概述

Sep, 2023

Explainability for Large Language Models: A Survey

Haiyan Zhao, Hanjie Chen, Fan Yang, Ninghao Liu, Huiqi Deng...

TL;DR对大型语言模型的解释技术进行分类和总结，并讨论了这些技术在训练范式、生成局部解释和全局解释方面的应用以及评估指标、调试模型和提高性能的挑战和机会。

Abstract

large language models (LLMs) have demonstrated impressive capabilities in natural language processing. However, their internal mechanisms are still unclear and this lack of transparency poses unwanted risks for downstream applications. Therefore, understanding and explaining these mode

large language models explainability techniques transformer-based language models training paradigms explanation techniques

发现论文，激发创造

从理解到应用：关于大型语言模型可解释性的调查

本文探讨大型语言模型（LLMs）的可解释性领域，强调了增强 LLMs 可解释性的必要性，重点关注预训练的基于 Transformer 的 LLMs，如 LLaMA，以及改善模型透明度和可靠性的解释性方法和评估方法的分类与讨论。

Jan, 2024

大语言模型时代的可解释性重新思考

可解释机器学习与大型语言模型相结合，评估解释方法并提出使用语言模型分析数据集和生成交互式解释的两个研究重点。

Jan, 2024

大型语言模型是事后解释器吗？

利用大型语言模型和上下文学习，本研究提出了一种新的解释框架，展示了语言模型在解释其他预测模型方面的有效性，并通过实验证明了其与现有解释技术相媲美的性能，从而在可解释的人工智能领域开辟了新的研究前沿。

Oct, 2023

大型语言模型作为忠实的解释器

介绍了一种提高大型语言模型的自然语言解释质量的生成解释框架 xLLM，该框架通过评估器和迭代优化过程来最大化生成解释的忠实度分数，实验证明 xLLM 可以显著提高生成解释的忠实度。

Feb, 2024

解释解释的 XAI 未来方向

利用大型语言模型将机器学习解释转化为自然的人类可读叙述，以增强解释性和可用性。

May, 2024

大型语言模型能否自我解释？LLM 生成自解释的研究

ChatGPT 的自解释性能与传统方法相媲美，在成本较低的情况下，且具有许多有趣的特性，促使我们重新思考当前在 ChatGPT（类似的 LLM）时代的模型可解释性实践。

Oct, 2023

文本处理与检索方法的可解释性：一项关键调查

本文全面调研了针对词嵌入、序列建模、注意力模块、Transformer、BERT 以及文档排名的机器学习和自然语言处理研究的可解释性和解释性方法，最后提出了未来的研究方向。

Dec, 2022

使用句法结构评估和解释大型语言模型在代码中的应用

ASTxplainer 是针对代码 LLMs 的一种可解释性方法，不仅能提供 LLM 评估的新方法，还能通过可视化 LLM 预测结果帮助终端用户理解模型预测。通过在常用的 GitHub 项目上进行实证评估和用户研究，研究结果表明 ASTxplainer 有潜力深入研究 LLM 的效能，并帮助终端用户理解预测结果。

Aug, 2023

大型语言模型与可解释性法律：一种混合方法

提倡使用 LLMs 来增强基于规则的法律系统的可访问性、使用性和可解释性，为法律技术的民主和利益相关者导向视角做出贡献。发展了一种方法来探索 LLMs 在将规则系统生成的解释从高级编程语言翻译成自然语言上的潜在应用，使所有用户能够快速、清晰和便捷地与这些技术进行交互。研究还进一步建立在这些解释之上，通过使用一系列提示链来赋予非专业人士在自己身上执行复杂的法律任务的能力，用于对相同事实案例应用基于规则的不同推理的自主法律比较。

Nov, 2023

大型语言模型调查

本文介绍了最近关于预训练语言模型（PLMs）的新进展，重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面，并讨论了未来研究的问题和方向。

Mar, 2023