ACLMar, 2024

关于大型语言模型对已知事实的臆断

TL;DR大型语言模型在回答事实性问题方面很成功,但也容易产生幻觉。我们通过推理动态的角度来调查 LLMs 拥有正确回答知识却仍然出现幻觉的现象,这是以往对幻觉研究中没有涉及的领域。通过两个关键思想,我们能够进行这种分析。首先,我们识别了查询相同三元知识但产生不同答案的实际问题。因此,模型在正确和错误输出上的行为差异提示了幻觉发生的模式。其次,为了测量这种模式,我们利用残差流到词汇空间的映射。我们揭示了在正确和幻觉案例之间,输出令牌概率在模型的不同层深度上的动态差异。在幻觉案例中,输出令牌的信息很少呈现出突然增加以及在模型的后期中始终表现出优势。利用动态曲线作为特征,我们构建了一个能够以 88% 的准确率准确检测幻觉预测的分类器。我们的研究揭示了理解 LLMs 在已知事实中产生幻觉的原因的启示,更重要的是,能够准确预测它们何时产生幻觉。