多语言摘要中的幻觉检测与缓解
本文旨在填补对非英语语境下自动幻觉检测技术效果的认识空白,通过评估各种检测度量标准(包括 ROUGE、命名实体重叠和基于自然语言推理的度量标准)在许多语言的传记摘要中检测幻觉的效能,并评估不同度量标准之间的相关性,以衡量它们是否测量相同的现象。实证分析表明,虽然词汇度量标准显示出有限的效果,但基于自然语言推理的度量标准在高资源语言的句子级别上表现良好。相反,基于自然语言推理的度量标准在检测原子事实幻觉时通常失败。我们的研究结果突显出多语言幻觉检测领域中的现有空白,并激励未来研究开发更稳健的方法来检测其他语言中的低资源模型幻觉。
Feb, 2024
本文探讨了利用基于事实一致性评估模型的数据过滤和控制生成两种方法来改善跨语言自动摘要的结果,针对语义幻觉生成的问题在提高多语言自动摘要性能方面取得了较好的结果。
Dec, 2022
通过 Factored Verification 方法检测模糊摘要中的幻觉,并评估了其在 HaluEval 基准测试中的状况,结果表明其在幻觉检测方面达到了 76.2% 的准确度。我们使用该方法估计模型在多篇学术论文摘要中产生幻觉的频率,结果显示 ChatGPT (16k) 平均摘要中有 0.62 个幻觉,GPT-4 为 0.84,而 Claude 2 则为 1.55。我们要求模型使用 Factored Critiques 进行自我纠正,结果发现幻觉数量分别下降到了 ChatGPT 的 0.49,GPT-4 的 0.46,以及 Claude 2 的 0.95。由于我们发现的幻觉往往是微妙的,因此在使用模型合成学术论文时需要谨慎。
Oct, 2023
分析了神经文本生成模型在抽象文档摘要生成方面的局限性,并发现这些模型非常容易产生虚假内容。人类评估显示,预训练模型生成的摘要不仅在原始度量标准(即 ROUGE)方面更好,而且在生成忠实和真实摘要方面也更好,文本蕴含度量更好地相关于忠实度,有可能成为自动评估度量标准以及训练和解码标准的前景。
May, 2020
基于大型语言模型的文本生成具有吸引力,但生成的抽象摘要可能存在解释错误的 “幻觉”。本研究使用一套无监督指标来评估摘要的一致性,并与人工评估得分进行相关性分析。研究发现,基于大型语言模型的方法在幻觉检测方面优于其他无监督指标,而集合方法可以进一步提升性能。最后,本研究提出了一种新的集合方法,比之前的方法有更好的结果。
Oct, 2023
我们介绍了 FAITHSCORE(Faithfulness to Atomic Image Facts Score),这是一个无需参考的细粒度评估指标,用于衡量大型视觉语言模型(LVLMs)生成的自由形式答案的忠实度。我们的度量方法与人类对忠实程度的判断高度相关,结果显示当前系统容易生成与图像不符的产生幻觉的内容,留下了改进的空间。此外,我们发现当前的 LVLMs 虽然在颜色和计数方面表现良好,但在回答长度较长、关系和多个对象方面仍然存在困难。
Nov, 2023
使用大型语言模型生成基于医生笔记的患者摘要,研究训练数据对生成摘要的准确性和质量的影响,使用对幻觉的严格标注协议,评估基于 Llama 2 和 GPT-4 的生成摘要的幻觉现象及相关信息。
Feb, 2024
大型语言模型(LLMs)在各种自然语言处理任务上表现出色。然而,它们容易生成流畅但不真实的回复,即 “幻觉”。幻觉可能导致错误信息的传播,并在关键应用中造成伤害。减少幻觉具有挑战性,因为它们来源于嘈杂的数据、模型自信心过度、缺乏知识和生成过程等因素。最近的研究通过表示编辑和解码算法来解决这个问题,实现减少幻觉但不进行重大结构更改或重新训练。然而,这些方法要么隐式地在潜在空间中编辑 LLMs 的行为,要么在解码过程中抑制输出不忠实的结果的倾向,而不是显式地对幻觉进行建模。在本文中,我们介绍了忠实微调(F2),这是一种通过精心设计的损失函数在微调过程中显式地对忠实回答建模的新方法。我们在常用数据集上进行了广泛的实验,并证明 F2 相对于基线模型能够取得显著改进。
Jun, 2024
这篇论文通过深入探讨大型语言模型在幻觉方面的行为,定义了一种基于标记的方法以识别不同类型的幻觉,并进一步利用这种标记方法提高对话摘要任务中语言模型的可解释性和忠实度,同时提出了一个新的改进数据集和训练范式。
Dec, 2023
单个文档新闻摘要在保真度方面取得了显著进展,但我们提出一种新的评估基准,研究在以话题为焦点的对话摘要领域中存在的事实一致性问题和虚构错误类型。
Feb, 2024