AAAIDec, 2023
面向 LLM 的稀疏引导整体解释与可解释的推理时间干预
Sparsity-Guided Holistic Explanation for LLMs with Interpretable Inference-Time Intervention
Zhen Tan, Tianlong Chen, Zhenyu Zhang, Huan Liu
TL;DR通过稀疏引导技术,SparseCBM 提供了对大型语言模型的全面解释,包括输入、子网络和概念级别,同时引入可解释的推断时间干预维度,在模型部署期间实现动态调整,通过实证评估证明 SparseCBM 在解释和改善模型不准确性方面具有深刻的理解能力。