基于提示引导的内部状态用于大型语言模型的幻觉检测
该论文提出了AutoHall方法,通过自相矛盾的方式自动构建模型特定的幻觉数据集,然后基于这些数据集实现了无资源和黑盒幻觉检测方法,对开源和闭源大型语言模型进行了实验证明,在幻觉检测性能上优于现有基准模型,并且发现了不同模型之间的幻觉比例和类型的差异。
Sep, 2023
提出了一个使用自然语言推理链 (CoNLI) 来进行幻觉检测和幻觉减少的层次性框架,通过后期编辑来减少幻觉生成,从而提升文本质量。该框架在幻觉检测方面取得了最先进的性能,并在不进行微调或特定领域提示工程的情况下,使用大型语言模型 (LLMs) 进行重写,展示出了在各种上下文中具有竞争力的性能。
Oct, 2023
在这份调查中,我们旨在对大型语言模型(LLM)幻像领域的最新进展进行全面而深入的概述。我们从LLM幻像创新分类入手,然后深入探讨了导致幻像的因素。接下来,我们全面介绍了幻像检测方法和基准。此外,我们还相应介绍了用于减轻幻像的代表性方法。最后,我们分析了突出当前限制的挑战,并制定了未来LLM幻像研究的开放问题,旨在描绘发展方向。
Nov, 2023
我们提出了一种审计方法,用于确定大型语言模型中是否编码了诸如幻觉等模式,并可向下游任务传播。我们引入了一种弱监督的审计技术,使用子集扫描方法来检测预训练模型中LLM激活的异常模式。重要的是,我们的方法不需要先验知识来了解模式的类型,而是依赖于在测试期间不含异常的参考数据集。此外,我们的方法还可以确定编码这些模式的关键节点,这可能为细调特定子网络以减轻偏见提供关键见解。我们引入了两种新的扫描方法来处理可能偏离预期分布的异常句子中的LLM激活。我们的结果证实了BERT在编码幻觉方面内部能力有限,而OPT似乎能够在内部编码幻觉信息。重要的是,我们的扫描方法在没有事先暴露于虚假陈述的情况下,表现出与完全监督的离群样本分类器相当的性能。
Dec, 2023
大语言模型倾向于生成多样的事实不准确的陈述,本文提出了一个新的任务-自动细粒度幻觉检测,并提出了一个涵盖六种层次定义的幻觉类型的综合分类法。通过引入一个新的基准测试以评估,我们的分析结果显示ChatGPT和Llama 2-Chat的输出中有60%和75%的幻觉,而其中大多数幻觉属于未被充分研究的类别。为了解决这个问题的初步步骤,我们训练了FAVA,一个通过精心设计的合成数据生成来检测和纠正细粒度幻觉的检索增强的语言模型。在我们的基准测试中,我们的自动和人工评估显示FAVA在细粒度幻觉检测方面明显优于ChatGPT,尽管还存在大量改进的空间。FAVA提供的修改还提高了语言模型生成文本的准确性,导致了5-10%的FActScore改进。
Jan, 2024
自然语言生成面临若干挑战,我们通过引入数据增强管道和投票集成来解决生成流畅但不准确以及过度依赖流畅度评测指标的问题。
Mar, 2024
LLMs出现的幻觉指的是LLMs产生的回应在逻辑上是连贯的,但事实上是不准确的。本文引入了一种名为MIND的无监督训练框架,利用LLMs的内部状态实时检测幻觉,无需手动注释,并提出了用于评估多个LLMs幻觉检测的新基准HELM。我们的实验证明,MIND在幻觉检测方面优于现有的最先进方法。
Mar, 2024
通过细粒度人工智能反馈,检测和减轻大规模视觉语言模型中的幻觉现象。通过生成小规模句子级幻觉注释数据集和使用检测-重写流程来自动构建偏好数据集,进一步区分幻觉的严重程度,将幻觉严重程度纳入偏好学习来减轻大规模视觉语言模型中的幻觉。广泛实验证明了我们方法的有效性。
Apr, 2024
使用两个简单的分类器和从其他LLM评估器获得的四个数值特征,本文引入了一种监督学习方法,取得了有希望的结果,并在三个不同基准测试中超越了当前最先进的成果。
May, 2024
本文探讨了四个大型语言模型(LLMs)(Llama 3、Gemma、GPT-3.5 Turbo和GPT-4)在幻觉生成和检测任务中的能力,并采用集成多数投票的方法将所有四个模型应用于检测任务,结果对于了解这些模型在处理幻觉生成和检测任务中的优势和不足具有有价值的见解。
Jul, 2024