Dec, 2023

定位和检测语言模型基础的瑕疵:使用 Fakepedia

TL;DR中文摘要:本研究介绍了 Fakepedia,一个反事实数据集,用于评估大型语言模型在参数化知识与上下文信息相冲突时的接地能力。我们测试了各种大型语言模型在 Fakepedia 上的表现,并发现 GPT-4-turbo 更偏好参数化知识,而 Mistral-7B 则最稳定地选择了接地答案。此外,我们对大型语言模型进行因果中介分析,结果表明仅凭计算图的检查即可预测 92.8% 准确度的接地情况,尤其是变压器中的少数 MLP 可以预测非接地行为。我们的结果与现有关于事实回忆机制的发现相结合,提供了大型语言模型中接地和事实回忆机制的相互作用的连贯叙述。