面向 LLM 的稀疏引导整体解释与可解释的推理时间干预

AAAIDec, 2023

面向 LLM 的稀疏引导整体解释与可解释的推理时间干预

Sparsity-Guided Holistic Explanation for LLMs with Interpretable Inference-Time Intervention

Zhen Tan, Tianlong Chen, Zhenyu Zhang, Huan Liu

TL;DR通过稀疏引导技术，SparseCBM 提供了对大型语言模型的全面解释，包括输入、子网络和概念级别，同时引入可解释的推断时间干预维度，在模型部署期间实现动态调整，通过实证评估证明 SparseCBM 在解释和改善模型不准确性方面具有深刻的理解能力。

Abstract

large language models (LLMs) have achieved unprecedented breakthroughs in various natural language processing domains. However, the enigmatic ``black-box'' nature of LLMs remains a significant challenge for interpretabi

large language models interpretability sparsecbm sparsity-guided techniques interpretable inference-time intervention

发现论文，激发创造

稀疏线性概念发现模型

通过对比性语言图像模型和单一稀疏线性层，我们提出了一个简单而直观的可解释框架，通过基于贝叶斯推理的数据驱动伯努利分布来实现框架中的稀疏性，相比相关方法，在准确性和每个样本概念稀疏性方面均表现出色，为新概念的个体研究提供便利。

Aug, 2023

大语言模型时代的可解释性重新思考

可解释机器学习与大型语言模型相结合，评估解释方法并提出使用语言模型分析数据集和生成交互式解释的两个研究重点。

Jan, 2024

Proto-lm: 基于原型网络的大型语言模型内置可解释性框架

利用新型方法 proto-lm，在维持性能竞争力的同时，使大语言模型具备了解释性，为实现可解释性的模型铺平了道路。

Nov, 2023

大型语言模型黑匣子揭秘：整体可解释性的两个视角

通过一种全面解释性的框架，我们提出打开大语言模型的黑匣子，既关注机制可解释性、组件功能和训练动态，又通过隐藏表示进行行为分析，以实现与人类价值相一致的伦理、诚实和可靠推理。

Feb, 2024

基于概念的大规模多模态模型可解释性框架

借助大型多模态模型（LMMs），本文提出了一种新颖的解释框架，通过字典学习的方法应用于令牌的表示，准确地解释了多模态概念，并定量和定性地评估了学习到的概念在视觉和文本方面的相关性与质量。

Jun, 2024

自监督可解释的基于概念的文本分类模型

该研究论文提出了一种自监督可解释概念嵌入模型（ICEMs），通过利用大型语言模型的泛化能力，在自监督方式下预测概念标签，并通过可解释的函数提供最终预测结果。实验结果表明，ICEMs 可以以自监督方式进行训练，并达到类似于全监督概念模型和端到端黑盒模型的性能。此外，该模型在预测方面具有解释性、互动性和可控性，能够提供有意义的逻辑解释、允许通过概念干预修改中间预测结果，并引导大型语言模型按照所需的决策路径进行解码。

Jun, 2024

大型语言模型的推理逻辑能否分解为符号概念？

该论文通过提出一种将大型语言模型的推理逻辑解释为一组符号概念的方法，探讨了大型语言模型是否编码了稀疏的符号概念，并将 LLMs 的推理分数分解为少量的符号概念，验证了这些符号概念的可迁移性和可对 LLMs 的预测错误进行解释的重要性。

Apr, 2023

大型语言模型是可解释学习者

大型语言模型与符号程序的结合可以在构建人类中心预测模型时解决表达力和解释性之间的平衡问题。

Jun, 2024

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024

ShadowLLM: 基于预测的上下文稀疏化大语言模型

使用 ShadowLLM 预测器可实现更好的稀疏模式，提高 15% 的准确率，同时减少 20% 的延迟，验证了具有 300 亿参数的模型。

Jun, 2024