谈话模型产生幻觉的起因：是数据集还是模型？

Apr, 2022

谈话模型产生幻觉的起因：是数据集还是模型？

On the Origin of Hallucinations in Conversational Models: Is it the Datasets or the Models?

Nouha Dziri, Sivan Milton, Mo Yu, Osmar Zaiane, Siva Reddy

TL;DR这篇论文研究了知识驱动的对话模型中的幻觉问题，通过广泛的人类研究发现标准测试数据集中有超过60％的幻觉响应，导致模型产生幻觉现象。提出了关于训练数据和模型质量的重要问题，并为未来的研究提供了公开的批注。

Abstract

knowledge-grounded conversational models are known to suffer from producing factually invalid statements, a phenomenon commonly called hallucination. In this work, we investigate the underlying causes of this phe

发现论文，激发创造

对话系统中事实幻觉模式的深入探究

该研究通过人工反馈分析，提出了一种针对知识图谱(Knowledge Graph)聊天机器人中存在的事实幻觉问题的实体级幻觉检测系统，并创建了FADE合成数据集，用于与已建立的基准进行比较。

Jan, 2023

大型语言模型中幻觉的令人不安出现--广泛定义、量化和规范性改进

通过细致分类和度、方向及类别上的倾向进行细粒度的幻视建模和缓解，我们提供了两个幻视方向（FM和SL）的全面理解，并将其进一步细分为内在和外在，分为温和、中度和令人担忧的三个严重程度，同时我们还对幻视进行了六种类型的细致分类。此外，我们还提供了包含75,000个样本和人工注释的HallucInation eLiciTation（HILT）数据集。最后，我们提出了Hallucination Vulnerability Index（HVI），该指数可以量化和评估语言模型在产生幻视方面的脆弱性，并作为人工智能相关政策制定的标准工具。

Oct, 2023

大型语言模型中的幻觉调查：原则、分类、挑战与开放问题

在这份调查中，我们旨在对大型语言模型（LLM）幻像领域的最新进展进行全面而深入的概述。我们从LLM幻像创新分类入手，然后深入探讨了导致幻像的因素。接下来，我们全面介绍了幻像检测方法和基准。此外，我们还相应介绍了用于减轻幻像的代表性方法。最后，我们分析了突出当前限制的挑战，并制定了未来LLM幻像研究的开放问题，旨在描绘发展方向。

Nov, 2023

在LLMs中重新定义“幻觉”：朝着心理学指导的框架缓解错误信息

通过基于认知偏见和其他心理现象的心理分类学，我们质疑将“幻觉”一词应用于大型语言模型，并利用人类内部解决类似挑战的见解来开发缓解LLMs幻觉的策略，为提高LLM的可靠性提供细致精确的理解和可操作的途径。

Feb, 2024

语言模型非事实性幻觉的机制研究

我们的研究旨在探索语言模型(LMs)产生非事实幻觉的机制原因，并通过因果中介分析和嵌入空间投影，确定了两种普遍的机制原因：1)较低层MLPs中主语属性知识不足，2)较高层attention heads和MLPs中无法正确选择客体属性。通过对LM预训练检查点的审查，我们揭示了这两种幻觉机制原因的不同学习动态，并强调从因果分析中得出的属性特征可以有效构建幻觉检测器。我们的工作为LM事实错误提供了机制性理解。

Mar, 2024

幻觉排行榜-量化大型语言模型中的幻觉

该论文介绍了幻觉排行榜，一个旨在定量衡量和比较每个模型产生幻觉倾向的开放性倡议，通过一系列综合评估模型的基准测试，如准确性和忠实度等方面，涵盖了问答、摘要和阅读理解等不同任务，为研究人员和实践者指导选择最可靠的模型。

Apr, 2024

自信的无意义？：自然语言处理中“幻觉”观点和挑战的关键调查

通过对103篇NLP研究的批判性审查，我们调查了大型语言模型中幻觉的特点；通过对社会学和技术文献的全面审阅，我们发现了对“幻觉”一词缺乏共识；此外，我们对171名NLP和AI领域的从业者进行了一项调查，以了解对幻觉的不同观点；我们的分析强调了在NLP中明确定义和框架定位幻觉的必要性，突出了可能的挑战，而我们的调查结果提供了对幻觉对社会影响和后果的主题性理解。

Apr, 2024

HalluDial: 自动对话层次的大规模幻觉评估基准

提出HalluDial，这是首个用于自动对话级幻觉评估的综合大规模基准测试。HalluDial包含了以上文提到的内容，并包括了分为自发和感应性的幻觉情景，并涵盖了实际性幻觉和忠实性幻觉。

Jun, 2024

基于知识图谱训练语言模型：对幻觉及其可检测性的洞察

本研究针对语言模型的幻觉问题，特别是训练集中的正确答案如何影响幻觉现象。通过构建知识图谱数据集并训练不同规模的语言模型，发现更大的模型和更长的训练时间会降低幻觉发生率，但要实现较低的幻觉率需要显著更大的模型和计算成本。此外，研究还揭示了语言模型的规模与幻觉可检测性之间的逆向关系。

Aug, 2024

基于辩论驱动的实验：大语言模型的幻觉与准确性

本研究针对大语言模型（LLMs）在文本生成过程中面临的幻觉问题，即生成与输入或外部知识不符的信息。通过构建多实例模型之间辩论的实验框架，本研究揭示了模型间互动对幻觉的影响，发现这种交互可以增强模型的推理能力，从而提高其在TruthfulQA基准测试中的表现。

Oct, 2024