德国也出现幻觉!与阿森特数据集中的新闻摘要不一致检测
这篇论文通过深入探讨大型语言模型在幻觉方面的行为,定义了一种基于标记的方法以识别不同类型的幻觉,并进一步利用这种标记方法提高对话摘要任务中语言模型的可解释性和忠实度,同时提出了一个新的改进数据集和训练范式。
Dec, 2023
通过在文本摘要中测量语义框架、话述和内容可验证性中的细粒度错误,我们提出了第一个主动学习框架来减轻 LLM 幻觉,减少对幻觉错误的昂贵人工注释。经过对三个数据集和不同主干模型的广泛实验,我们的方法在有效和高效地减轻 LLM 幻觉方面具有优势。
Apr, 2024
基于大型语言模型的文本生成具有吸引力,但生成的抽象摘要可能存在解释错误的 “幻觉”。本研究使用一套无监督指标来评估摘要的一致性,并与人工评估得分进行相关性分析。研究发现,基于大型语言模型的方法在幻觉检测方面优于其他无监督指标,而集合方法可以进一步提升性能。最后,本研究提出了一种新的集合方法,比之前的方法有更好的结果。
Oct, 2023
本文发现了一个简单的标准 —— 模型不确定性高 —— 会导致生成更多的错误内容(即幻觉),并提出了一种解码策略,该策略在存在不确定性时优化源和目标单词的点间互信息,从而减少幻觉的出现,并在 XSum 数据集上进行了实验证明,该方法降低了幻觉的概率,同时保持了黄色和 BertS 得分。
Oct, 2022
减少幻觉的输出或概括长文本文档摘要的幻觉是本论文的目标。通过在 Longformer Encoder-Decoder (LED) 模型的微调中结合数据过滤和联合实体与摘要生成(JAENS)技术,我们使用 PubMed 数据集来改善产生的摘要质量,并测量了实体级别的事实一致性。实验结果显示,经过微调的 LED 模型在生成论文摘要方面表现良好,基于一些预处理步骤的数据过滤技术能够减少生成摘要中的实体级别幻觉,从而提高了事实一致性指标。
Sep, 2023
通过对大型语言模型在抽象摘要生成中修剪算法的实证研究,发现修剪后的模型与完整模型相比更少出现幻觉,并提出其与源输入之间的更高词汇重叠可能是幻觉减少的原因。
Nov, 2023
本文提出了一种新颖的无参考、基于不确定性的大语言模型 (LLM) 幻觉检测方法,通过关注给定文本中最具信息和重要性的关键词、历史上不可靠的标记以及标记属性(如类型和频率),实现了最新的检测方法,消除了对额外信息的需求。
Nov, 2023
使用大型语言模型生成基于医生笔记的患者摘要,研究训练数据对生成摘要的准确性和质量的影响,使用对幻觉的严格标注协议,评估基于 Llama 2 和 GPT-4 的生成摘要的幻觉现象及相关信息。
Feb, 2024
在这份调查中,我们旨在对大型语言模型(LLM)幻像领域的最新进展进行全面而深入的概述。我们从 LLM 幻像创新分类入手,然后深入探讨了导致幻像的因素。接下来,我们全面介绍了幻像检测方法和基准。此外,我们还相应介绍了用于减轻幻像的代表性方法。最后,我们分析了突出当前限制的挑战,并制定了未来 LLM 幻像研究的开放问题,旨在描绘发展方向。
Nov, 2023
本研究分析了抽象摘要系统中的幻觉现象,发现是因为模型使用不受原文支持的目标摘要进行训练。基于这一发现,提出了 PINOCCHIO 新解码方法来提高 Transformer-based 抽象摘要器的一致性,并在实验中表现良好。
Mar, 2022