我们能捉住大象吗？自然语言生成中幻觉评估的演变：综述

Apr, 2024

我们能捉住大象吗？自然语言生成中幻觉评估的演变：综述

Can We Catch the Elephant? The Evolvement of Hallucination Evaluation on Natural Language Generation: A Survey

Siya Qi, Yulan He, Zheng Yuan

TL;DR自然语言生成（NLG）中的幻觉就像房间里的大象，明显却经常被忽视，直到最近取得了显著进展，提高了生成文本的流畅性和语法准确性。对于大型语言模型（LLMs），幻觉可能在各种下游任务和随意对话中发生，需要准确评估以提高可靠性和安全性。然而，目前关于幻觉评估的研究存在很大的差异，人们仍然难以整理和选择最合适的评估方法。此外，随着自然语言处理研究逐渐转向LLMs领域，这一问题带来了新的挑战。本文对幻觉评估方法的发展进行了全面调查，旨在解决三个关键方面的问题：1）事实的多样定义和粒度；2）自动评估器的分类及其适用性；3）未解决的问题和未来的方向。

Abstract

hallucination in natural language generation (NLG) is like the elephant in the room, obvious but often overlooked until recent achievements significantly improved the fluency and grammatical accuracy of generated

发现论文，激发创造

自然语言生成中幻觉的调查

本文综述了关于深度学习在自然语言生成中出现幻觉问题的度量、缓解方法和未来方向，以及针对抽象摘要、对话生成、生成式问答、数据到文本生成、机器翻译和视觉语言生成的幻觉问题的任务特定研究进展。

Feb, 2022

通过关联分析量化和归因大型语言模型的幻觉

通过结合幻觉水平量化和幻觉原因调查的关联分析，我们能够观察到每个风险因素的每个值下的幻觉水平，检查每个风险因素的贡献和统计显著性，同时排除其他因素的混淆效应，进一步揭示大型语言模型中常识记忆、关系推理和指令遵循等潜在缺陷，为预训练和监督微调过程提供指导，以减轻幻觉问题。

Sep, 2023

大型语言模型中幻觉的令人不安出现--广泛定义、量化和规范性改进

通过细致分类和度、方向及类别上的倾向进行细粒度的幻视建模和缓解，我们提供了两个幻视方向（FM和SL）的全面理解，并将其进一步细分为内在和外在，分为温和、中度和令人担忧的三个严重程度，同时我们还对幻视进行了六种类型的细致分类。此外，我们还提供了包含75,000个样本和人工注释的HallucInation eLiciTation（HILT）数据集。最后，我们提出了Hallucination Vulnerability Index（HVI），该指数可以量化和评估语言模型在产生幻视方面的脆弱性，并作为人工智能相关政策制定的标准工具。

Oct, 2023

大型语言模型中的幻觉调查：原则、分类、挑战与开放问题

在这份调查中，我们旨在对大型语言模型（LLM）幻像领域的最新进展进行全面而深入的概述。我们从LLM幻像创新分类入手，然后深入探讨了导致幻像的因素。接下来，我们全面介绍了幻像检测方法和基准。此外，我们还相应介绍了用于减轻幻像的代表性方法。最后，我们分析了突出当前限制的挑战，并制定了未来LLM幻像研究的开放问题，旨在描绘发展方向。

Nov, 2023

UHGEval：通过无约束生成对中国大型语言模型的幻觉进行基准测试

我们开发了一个无约束幻觉生成评估(UHGEval)基准测试，用于编译LLMs产生的具有最小限制的输出，并建立了一个全面的基准测试评估框架，以帮助后续研究人员进行可扩展和可重复的实验，并对突出的中文语言模型和GPT系列模型进行了广泛实验，以获得关于幻觉挑战的专业性能洞察。

Nov, 2023

大型语言模型中幻觉缓解技术的综合调查

这篇论文综述了32种技术，旨在减轻大型语言模型中的幻觉问题，其中包括检索增强生成、知识检索、CoNLI和CoVe等方法，并提出了基于数据集利用、常见任务、反馈机制和检索器类型等参数的分类方法，以区分专门设计用于解决大型语言模型幻觉问题的各种方法。此外，还分析了这些技术中存在的挑战和局限性，为未来研究提供了坚实的基础。

Jan, 2024

定义幻觉的陷阱

尽管自然语言生成（NLG）和大语言模型（LLMs）取得了令人印象深刻的进展，但研究人员对NLG评估的重要方面仍不清楚。为了证实这一观点，我检查了数据文本NLG中关于幻觉和省略的当前分类，并提出了基于逻辑的这些分类的综合。最后，我强调了关于幻觉的所有当前思考的一些残留限制，并讨论了对LLMs的影响。

Jan, 2024

LLM 动力编码生成中的幻觉探索与评估

通过主题分析，我们对生成的代码进行了总结和分类，建立了包括五个主要类别的幻觉的综合分类法。基于结果，我们提出了一个评估代码 LLM 性能的基准，名为 HalluCode，并通过 HalluCode 和 HumanEval 进行了幻觉识别和减轻实验，结果表明现有的 LLM 在识别幻觉方面面临巨大挑战，尤其是在识别幻觉类型方面，几乎无法减轻幻觉。我们相信我们的研究结果将为幻觉评估、检测和减轻的未来研究提供指导，为建立更有效可靠的代码 LLMs 铺平道路。

Apr, 2024

自信的无意义？：自然语言处理中“幻觉”观点和挑战的关键调查

通过对103篇NLP研究的批判性审查，我们调查了大型语言模型中幻觉的特点；通过对社会学和技术文献的全面审阅，我们发现了对“幻觉”一词缺乏共识；此外，我们对171名NLP和AI领域的从业者进行了一项调查，以了解对幻觉的不同观点；我们的分析强调了在NLP中明确定义和框架定位幻觉的必要性，突出了可能的挑战，而我们的调查结果提供了对幻觉对社会影响和后果的主题性理解。

Apr, 2024

HalluDial: 自动对话层次的大规模幻觉评估基准

提出HalluDial，这是首个用于自动对话级幻觉评估的综合大规模基准测试。HalluDial包含了以上文提到的内容，并包括了分为自发和感应性的幻觉情景，并涵盖了实际性幻觉和忠实性幻觉。

Jun, 2024