Feb, 2024

LLM 对幻觉是否有了解?LLM 隐藏状态的实证研究

TL;DR大型语言模型 (LLMs) 可能会产生虚假答案,本研究旨在探讨 LLMs 是否知晓此虚假现象,并研究其反应和程度。通过实验框架检查 LLM 在回答问题和产生虚假回答时的隐藏状态差异,并得出实证发现发现,LLMs 在处理真实回答和虚假回答时有所不同,然后应用各种模型解释技术进一步理解并解释这些发现,同时利用 LLM 隐藏表示空间的引导推导出减少幻觉的潜力。本研究揭示了 LLMs 反应幻觉的答案制备过程,并提出减少其发生频率的方法。