Jan, 2024

细粒度幻觉检测与编辑语言模型

TL;DR大语言模型倾向于生成多样的事实不准确的陈述,本文提出了一个新的任务 - 自动细粒度幻觉检测,并提出了一个涵盖六种层次定义的幻觉类型的综合分类法。通过引入一个新的基准测试以评估,我们的分析结果显示 ChatGPT 和 Llama 2-Chat 的输出中有 60% 和 75% 的幻觉,而其中大多数幻觉属于未被充分研究的类别。为了解决这个问题的初步步骤,我们训练了 FAVA,一个通过精心设计的合成数据生成来检测和纠正细粒度幻觉的检索增强的语言模型。在我们的基准测试中,我们的自动和人工评估显示 FAVA 在细粒度幻觉检测方面明显优于 ChatGPT,尽管还存在大量改进的空间。FAVA 提供的修改还提高了语言模型生成文本的准确性,导致了 5-10% 的 FActScore 改进。