幻觉检测与幻觉减缓:一项研究
基于大型语言模型的幻觉评估框架 (HaELM) 提出了对当前大视觉-语言模型 (LVLMs) 进行幻觉评估的方法,并分析了导致幻觉的因素,并提供了缓解幻觉问题的建议。
Aug, 2023
本文调查了近期关于大型语言模型(LLMs)幻觉的检测、解释和缓解的努力,并着重讨论了LLMs所带来的独特挑战,提出了LLM幻觉现象的分类和评估基准,并分析了现有的缓解LLM幻觉方法,探讨了未来研究的潜在方向。
Sep, 2023
在这份调查中,我们旨在对大型语言模型(LLM)幻像领域的最新进展进行全面而深入的概述。我们从LLM幻像创新分类入手,然后深入探讨了导致幻像的因素。接下来,我们全面介绍了幻像检测方法和基准。此外,我们还相应介绍了用于减轻幻像的代表性方法。最后,我们分析了突出当前限制的挑战,并制定了未来LLM幻像研究的开放问题,旨在描绘发展方向。
Nov, 2023
在大型语言模型时代,幻觉(即生成事实不准确的内容)对于在现实应用中可信可靠地部署语言模型构成了巨大的挑战。为了解决语言模型幻觉问题,本研究对幻觉检测、幻觉来源和幻觉缓解这三个重要问题进行了系统的实证研究。研究通过构建一个新的幻觉基准HalualEval 2.0,设计了一种简单而有效的语言模型幻觉检测方法,并深入分析了导致语言模型幻觉的潜在因素。最后,研究实施并检验了一系列常用的技术来缓解语言模型中的幻觉。本研究的工作为理解幻觉的起源以及缓解语言模型中的幻觉问题提供了重要发现。
Jan, 2024
通过基于认知偏见和其他心理现象的心理分类学,我们质疑将“幻觉”一词应用于大型语言模型,并利用人类内部解决类似挑战的见解来开发缓解LLMs幻觉的策略,为提高LLM的可靠性提供细致精确的理解和可操作的途径。
Feb, 2024
通过多个数据集和大型语言模型,包括Llama-2,对该模型的幻觉水平进行广泛评估,并展示了我们的方法在自动检测幻觉方面的有效性,达到了87%的平衡准确率,而无需依赖外部知识。
Mar, 2024
LLMs出现的幻觉指的是LLMs产生的回应在逻辑上是连贯的,但事实上是不准确的。本文引入了一种名为MIND的无监督训练框架,利用LLMs的内部状态实时检测幻觉,无需手动注释,并提出了用于评估多个LLMs幻觉检测的新基准HELM。我们的实验证明,MIND在幻觉检测方面优于现有的最先进方法。
Mar, 2024
本研究介绍了一种通过重写系统响应来自动生成真实和虚构输出的方法,实验证明我们的方法在准确性和延迟方面均优于最先进的零样本检测器和现有的合成生成方法,展示了我们的方法的有效性。
Jul, 2024
本文探讨了四个大型语言模型(LLMs)(Llama 3、Gemma、GPT-3.5 Turbo和GPT-4)在幻觉生成和检测任务中的能力,并采用集成多数投票的方法将所有四个模型应用于检测任务,结果对于了解这些模型在处理幻觉生成和检测任务中的优势和不足具有有价值的见解。
Jul, 2024
本研究旨在解决大型视觉语言模型(LVLM)中幻觉现象所带来的实际问题。通过综述LVLM的背景、结构以及幻觉产生的主要原因,评估当前的幻觉纠正与减轻工作,并提出未来研究方向,以增强LVLM的可靠性与实用性。研究揭示了幻觉现象对LVLM效能的限制,并强调了提升用户体验的潜在影响。
Oct, 2024