Oct, 2023

语言模型产生幻觉但在事实验证中可能表现出色

TL;DR自然语言处理和大型语言模型在近期取得了显著进展,然而,大型语言模型常常会出现“幻觉”,导致非事实性的输出。我们的人工评估结果证实了这一严重的幻觉问题,显示即使是GPT-3.5的事实性输出不到25%。这凸显了事实验证器的重要性,以便衡量和激励进展。我们的系统调查确认了大型语言模型可以被重新用作有效的事实验证器,与人类判断具有强相关性,至少在维基百科领域。令人惊讶的是,在我们的研究中,最不事实生成器FLAN-T5-11B表现最佳作为事实验证器,甚至超过了像GPT3.5和ChatGPT这样更有能力的大型语言模型。进一步深入分析了这些大型语言模型对高质量证据的依赖以及它们在鲁棒性和泛化能力方面的不足。我们的研究为开发可信赖的生成模型提供了见解。