Jun, 2024

相信还是不相信你的LLM

TL;DR我们在大型语言模型中探索不确定性量化,旨在确定查询结果的不确定性何时较大。我们同时考虑认识论不确定性和偶然性不确定性,从中推论出一种信息论度量,可可靠地检测只有认识论不确定性较大的情况,从模型的输出中可以仅通过一些特殊的迭代提示来计算。这种量化可以检测出幻觉,在单答案和多答案响应中均适用。与许多标准的不确定性量化策略(例如,将响应的对数似然度阈值化)不同,无法检测到多答案情况下的幻觉。我们进行了一系列实验证明了我们的公式的优势。此外,我们的研究还揭示了大型语言模型给定输出的概率如何通过迭代提示来放大,这可能具有独立的研究价值。