自然语言生成(NLG)中的幻觉就像房间里的大象,明显却经常被忽视,直到最近取得了显著进展,提高了生成文本的流畅性和语法准确性。对于大型语言模型(LLMs),幻觉可能在各种下游任务和随意对话中发生,需要准确评估以提高可靠性和安全性。然而,目前关于幻觉评估的研究存在很大的差异,人们仍然难以整理和选择最合适的评估方法。此外,随着自然语言处理研究逐渐转向 LLMs 领域,这一问题带来了新的挑战。本文对幻觉评估方法的发展进行了全面调查,旨在解决三个关键方面的问题:1)事实的多样定义和粒度;2)自动评估器的分类及其适用性;3)未解决的问题和未来的方向。
Apr, 2024
研究总结了最近对大型语言模型中的幻觉现象的有趣见解,提出了一个包含各种文本生成任务中幻觉的新颖分类法,以及理论洞察、检测方法和改进方法,并提出了若干未来的研究方向。
Sep, 2023
在这份调查中,我们旨在对大型语言模型(LLM)幻像领域的最新进展进行全面而深入的概述。我们从 LLM 幻像创新分类入手,然后深入探讨了导致幻像的因素。接下来,我们全面介绍了幻像检测方法和基准。此外,我们还相应介绍了用于减轻幻像的代表性方法。最后,我们分析了突出当前限制的挑战,并制定了未来 LLM 幻像研究的开放问题,旨在描绘发展方向。
Nov, 2023
尽管自然语言生成(NLG)和大语言模型(LLMs)取得了令人印象深刻的进展,但研究人员对 NLG 评估的重要方面仍不清楚。为了证实这一观点,我检查了数据文本 NLG 中关于幻觉和省略的当前分类,并提出了基于逻辑的这些分类的综合。最后,我强调了关于幻觉的所有当前思考的一些残留限制,并讨论了对 LLMs 的影响。
Jan, 2024
这篇论文综述了 32 种技术,旨在减轻大型语言模型中的幻觉问题,其中包括检索增强生成、知识检索、CoNLI 和 CoVe 等方法,并提出了基于数据集利用、常见任务、反馈机制和检索器类型等参数的分类方法,以区分专门设计用于解决大型语言模型幻觉问题的各种方法。此外,还分析了这些技术中存在的挑战和局限性,为未来研究提供了坚实的基础。
通过自然语言推理对训练数据进行预处理,缩短输入序列的远程依赖关系并添加与图表相关的信息,可以显著降低神经图表摘要中的幻觉。
Aug, 2023
在这项研究中,我们正式定义了虚构,并提出了一种在零镜头环境中定量检测虚构的框架,利用我们的定义和模型输出包含任务和样本特定输入的假设。我们的解决方案在模型感知环境中实现了 0.78 的准确度,在模型无关环境中实现了 0.61 的准确度。值得注意的是,我们的解决方案保持了计算效率,比其他现有方法需要更少的计算资源,符合轻量化和压缩模型的趋势。
Mar, 2024
通过综合调查,我们分析了大型视觉语言模型(LVLMs)中的幻觉问题,以建立一个概览并为未来的缓解工作提供帮助。调查包括对 LVLMs 中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估 LVLMs 幻觉的基准和方法论的概述。此外,我们深入研究了这些幻觉的根本原因,包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾,并讨论了关于 LVLMs 中幻觉的未解问题和未来研究方向。
Feb, 2024
通过分析相对标记的贡献来确定神经序列生成模型的幻觉内在模型症状,使用这些症状设计出一个轻量级的幻觉检测器,在手动标注的英中和德英翻译测试上优于基于质量估计或大型预训练模型的分类器。
Jan, 2023
本文介绍了一种使用预训练模型和人工标注数据来检测神经序列模型输出中的虚构内容,并在机器翻译和摘要生成等任务中获得显著效果的方法。
Nov, 2020