Dec, 2023

定位和检测语言模型基础的瑕疵:使用Fakepedia

TL;DR中文摘要:本研究介绍了Fakepedia,一个反事实数据集,用于评估大型语言模型在参数化知识与上下文信息相冲突时的接地能力。我们测试了各种大型语言模型在Fakepedia上的表现,并发现GPT-4-turbo更偏好参数化知识,而Mistral-7B则最稳定地选择了接地答案。此外,我们对大型语言模型进行因果中介分析,结果表明仅凭计算图的检查即可预测92.8%准确度的接地情况,尤其是变压器中的少数MLP可以预测非接地行为。我们的结果与现有关于事实回忆机制的发现相结合,提供了大型语言模型中接地和事实回忆机制的相互作用的连贯叙述。