利用 GPT 增强文本摘要:最小化幻觉的策略
使用大型语言模型生成基于医生笔记的患者摘要,研究训练数据对生成摘要的准确性和质量的影响,使用对幻觉的严格标注协议,评估基于 Llama 2 和 GPT-4 的生成摘要的幻觉现象及相关信息。
Feb, 2024
通过 Factored Verification 方法检测模糊摘要中的幻觉,并评估了其在 HaluEval 基准测试中的状况,结果表明其在幻觉检测方面达到了 76.2% 的准确度。我们使用该方法估计模型在多篇学术论文摘要中产生幻觉的频率,结果显示 ChatGPT (16k) 平均摘要中有 0.62 个幻觉,GPT-4 为 0.84,而 Claude 2 则为 1.55。我们要求模型使用 Factored Critiques 进行自我纠正,结果发现幻觉数量分别下降到了 ChatGPT 的 0.49,GPT-4 的 0.46,以及 Claude 2 的 0.95。由于我们发现的幻觉往往是微妙的,因此在使用模型合成学术论文时需要谨慎。
Oct, 2023
本研究通过使用传统的 ROUGE 和潜在语义分析(LSA)等指标,将 OpenAI 的 GPT 模型作为独立的评估者,评估了 Hugging Face 的六个基于 Transformer 的模型生成的文本摘要的效果。独特地,我们将 GPT 用作评估器而非摘要生成器,使其能够独立评估摘要的质量,而无需预定义的指标。我们的分析显示 GPT 评估与传统指标之间存在显著相关性,尤其是在评估相关性和连贯性方面。结果展示了 GPT 作为评估文本摘要的强大工具的潜力,提供了对已建立指标的补充洞察,并为自然语言处理任务中基于 Transformer 的模型的比较分析提供了依据。
May, 2024
减少幻觉的输出或概括长文本文档摘要的幻觉是本论文的目标。通过在 Longformer Encoder-Decoder (LED) 模型的微调中结合数据过滤和联合实体与摘要生成(JAENS)技术,我们使用 PubMed 数据集来改善产生的摘要质量,并测量了实体级别的事实一致性。实验结果显示,经过微调的 LED 模型在生成论文摘要方面表现良好,基于一些预处理步骤的数据过滤技术能够减少生成摘要中的实体级别幻觉,从而提高了事实一致性指标。
Sep, 2023
本研究旨在探讨如何在摘要生成过程中应用自然语言推理来检测和预防虚假信息,通过使用一个 NLI 辅助的 beam排序机制,从而大幅提高基于 XSum 与 CNN/DM 数据集的摘要生成效果。
Dec, 2022
基于大型语言模型的文本生成具有吸引力,但生成的抽象摘要可能存在解释错误的 “幻觉”。本研究使用一套无监督指标来评估摘要的一致性,并与人工评估得分进行相关性分析。研究发现,基于大型语言模型的方法在幻觉检测方面优于其他无监督指标,而集合方法可以进一步提升性能。最后,本研究提出了一种新的集合方法,比之前的方法有更好的结果。
Oct, 2023
分析了神经文本生成模型在抽象文档摘要生成方面的局限性,并发现这些模型非常容易产生虚假内容。人类评估显示,预训练模型生成的摘要不仅在原始度量标准(即 ROUGE)方面更好,而且在生成忠实和真实摘要方面也更好,文本蕴含度量更好地相关于忠实度,有可能成为自动评估度量标准以及训练和解码标准的前景。
May, 2020
通过对替身候选生成和选择的研究,我们提出了一个模型无关的后处理技术来修正当前神经抽象摘要生成模型中常见的不忠于原始内容的摘要幻觉现象,我们学习了一个判别式修正模型并证明,通过替代抽象式中的具名实体和数量标识来代替同源文本中语义相似类型的实体可以有效识别和修正这些不符合原文本实质的幻觉,希望此方法可以为未来的神经抽象摘要生成方向的研究提供新的思路。
Apr, 2021
本文发现了一个简单的标准 —— 模型不确定性高 —— 会导致生成更多的错误内容(即幻觉),并提出了一种解码策略,该策略在存在不确定性时优化源和目标单词的点间互信息,从而减少幻觉的出现,并在 XSum 数据集上进行了实验证明,该方法降低了幻觉的概率,同时保持了黄色和 BertS 得分。
Oct, 2022