对话系统中事实幻觉模式的深入探究
本文通过反事实推理方法分析了幻觉问题背后的因果关系,提出了一种可能的解决方案,即通过利用对话 - 知识交互来减轻幻觉,在不影响对话性能的同时适应不同的生成模型。希望我们的努力能够支持并呼吁更多重视开发轻量级技术以实现强大可靠的对话系统。
Apr, 2024
本研究提出了一种生成 - 修正策略的模型 Neural Path Hunter ,利用知识图谱的 k-hop 子图修正神经对话模型生成的结果以提高结果的正确性,并在 OpenDialKG 数据集上进行了实验证明在信实度上有 20.35% 的相对提升。
Apr, 2021
这篇论文研究了知识驱动的对话模型中的幻觉问题,通过广泛的人类研究发现标准测试数据集中有超过 60%的幻觉响应,导致模型产生幻觉现象。提出了关于训练数据和模型质量的重要问题,并为未来的研究提供了公开的批注。
Apr, 2022
大语言模型倾向于生成多样的事实不准确的陈述,本文提出了一个新的任务 - 自动细粒度幻觉检测,并提出了一个涵盖六种层次定义的幻觉类型的综合分类法。通过引入一个新的基准测试以评估,我们的分析结果显示 ChatGPT 和 Llama 2-Chat 的输出中有 60% 和 75% 的幻觉,而其中大多数幻觉属于未被充分研究的类别。为了解决这个问题的初步步骤,我们训练了 FAVA,一个通过精心设计的合成数据生成来检测和纠正细粒度幻觉的检索增强的语言模型。在我们的基准测试中,我们的自动和人工评估显示 FAVA 在细粒度幻觉检测方面明显优于 ChatGPT,尽管还存在大量改进的空间。FAVA 提供的修改还提高了语言模型生成文本的准确性,导致了 5-10% 的 FActScore 改进。
Jan, 2024
介绍 M-HalDetect,一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。使用 Fine-grained Direct Preference Optimization 和拒绝抽样方法,成功减少了幻觉率,为视觉问题回答任务提供了重要的改进。
Aug, 2023
我们通过探究模型生成的输入、输出和内部状态中的指标来检测大型语言模型生成中的幻觉,结果表明这些指标在幻觉生成和非幻觉生成之间存在差异,我们进一步通过训练二分类器使用这些指标作为输入特征来将模型生成划分为幻觉和非幻觉,此二分类器的 AUROC 值达到 0.80,并且我们展示了先前的幻觉中的令牌可以预测随后的幻觉。
Dec, 2023
本文研究了基于神经检索的循环架构在知识驱动的对话中的应用,将多个组件(检索器、排名器和编码器 - 解码器)结合在一起以最大化可知性并保留对话能力,在两个知识驱动的对话任务中实现了最先进的性能,并经过人工评估证实,大大减少了在最先进的聊天机器人中存在的知识幻觉问题。
Apr, 2021
本文综述了关于深度学习在自然语言生成中出现幻觉问题的度量、缓解方法和未来方向,以及针对抽象摘要、对话生成、生成式问答、数据到文本生成、机器翻译和视觉语言生成的幻觉问题的任务特定研究进展。
Feb, 2022