Mar, 2024

LUQ:基于 LLMs 的长文本不确定性量化

TL;DR大语言模型(LLMs)在各种 NLP 任务中展示了非凡的能力。我们的研究首先强调了目前 UQ 方法在处理长文本生成时的局限性,然后介绍了 Luq,一种专门设计用于长文本的基于采样的 UQ 方法。我们的发现表明,Luq 在与模型的准确性分数相关性方面优于现有的基准方法。通过 Luq 作为 UQ 工具,我们调查了几个流行 LLMs 的响应信心谱行为模式及其与事实性响应的相互作用。我们发现 LLMs 在生成罕见事实的长文本上缺乏信心,而事实准确的模型(如 GPT-4)倾向于拒绝其不确定的问题。为了进一步提高 LLM 响应的事实准确性,我们提出了一种称为 Luq-Ensemble 的方法,该方法对来自多个模型的响应进行集成并选择不确定性最小的响应。这种集成方法极大地提高了响应的事实性,超越了最佳独立 LLM 的表现。