Jan, 2024

大型语言模型能自我解释吗?

TL;DR利用自洽性检查作为一种忠实度测量,将其应用于大型语言模型自我解释的三种类型,即反事实解释、重要性度量和删除。通过不同任务和模型,发现忠实度是任务和模型相关的,例如对于情感分类,Llama2 的反事实解释、Mistral 的重要性度量和 Falcon 40B 的删除是更加忠实的。最后,我们的发现在提示变体方面是稳健的。