Mar, 2024

语言模型非事实性幻觉的机制研究

TL;DR我们的研究旨在探索语言模型(LMs)产生非事实幻觉的机制原因,并通过因果中介分析和嵌入空间投影,确定了两种普遍的机制原因:1)较低层MLPs中主语属性知识不足,2)较高层attention heads和MLPs中无法正确选择客体属性。通过对LM预训练检查点的审查,我们揭示了这两种幻觉机制原因的不同学习动态,并强调从因果分析中得出的属性特征可以有效构建幻觉检测器。我们的工作为LM事实错误提供了机制性理解。