Feb, 2024

LLMs的内部状态保持了幻觉检测的能力

TL;DR探索LLM内部状态中保留的密集语义信息,提出了一种称为INSIDE的方法,以更好地评估回答的自我一致性。此外,还探索了一种测试时间特征剪裁方法,以减少内部状态中的极端激活,从而减少自信生成并有助于检测过度自信的幻觉。在数个流行的LLMs和问答基准测试上进行了大量实验和消融研究,展示了我们提出方法的有效性。