神经图表摘要中的幻觉处理

Aug, 2023

Tackling Hallucinations in Neural Chart Summarization

Saad Obaid ul Islam, Iza Škrjanec, Ondřej Dušek, Vera Demberg

TL;DR通过自然语言推理对训练数据进行预处理，缩短输入序列的远程依赖关系并添加与图表相关的信息，可以显著降低神经图表摘要中的幻觉。

Abstract

hallucinations in text generation occur when the system produces text that is not grounded in the input. In this work, we tackle the problem of h

hallucinations text generation neural chart summarization natural language inference long-distance dependencies

发现论文，激发创造

长文本摘要中的幻觉减少

减少幻觉的输出或概括长文本文档摘要的幻觉是本论文的目标。通过在 Longformer Encoder-Decoder (LED) 模型的微调中结合数据过滤和联合实体与摘要生成（JAENS）技术，我们使用 PubMed 数据集来改善产生的摘要质量，并测量了实体级别的事实一致性。实验结果显示，经过微调的 LED 模型在生成论文摘要方面表现良好，基于一些预处理步骤的数据过滤技术能够减少生成摘要中的实体级别幻觉，从而提高了事实一致性指标。

Sep, 2023

自然语言生成中幻觉的调查

本文综述了关于深度学习在自然语言生成中出现幻觉问题的度量、缓解方法和未来方向，以及针对抽象摘要、对话生成、生成式问答、数据到文本生成、机器翻译和视觉语言生成的幻觉问题的任务特定研究进展。

Feb, 2022

抽象摘要中幻觉缓解的改进束搜索

本研究旨在探讨如何在摘要生成过程中应用自然语言推理来检测和预防虚假信息，通过使用一个 NLI 辅助的 beam排序机制，从而大幅提高基于 XSum 与 CNN/DM 数据集的摘要生成效果。

Dec, 2022

不要完全相信所读之事：通过对大型语言模型中幻觉的自动识别来增强摘要解释性

这篇论文通过深入探讨大型语言模型在幻觉方面的行为，定义了一种基于标记的方法以识别不同类型的幻觉，并进一步利用这种标记方法提高对话摘要任务中语言模型的可解释性和忠实度，同时提出了一个新的改进数据集和训练范式。

Dec, 2023

基于数据的方法生成忠实和高质量的患者总结（利用大型语言模型）

使用大型语言模型生成基于医生笔记的患者摘要，研究训练数据对生成摘要的准确性和质量的影响，使用对幻觉的严格标注协议，评估基于 Llama 2 和 GPT-4 的生成摘要的幻觉现象及相关信息。

Feb, 2024

通过模型内省理解和检测神经机器翻译中的幻觉

通过分析相对标记的贡献来确定神经序列生成模型的幻觉内在模型症状，使用这些症状设计出一个轻量级的幻觉检测器，在手动标注的英中和德英翻译测试上优于基于质量估计或大型预训练模型的分类器。

Jan, 2023

检测条件神经序列生成中产生的虚假内容

本文介绍了一种使用预训练模型和人工标注数据来检测神经序列模型输出中的虚构内容，并在机器翻译和摘要生成等任务中获得显著效果的方法。

Nov, 2020

可控幻觉：从嘈杂数据学习如何生成忠实的输出

本文介绍了在进行神经文本生成时，由于数据量不足，导致模型对于噪声的过度敏感，从而完成了对于 “幻觉” 生成文本的控制，通过该方法对 WikiBio 语料库进行测试，证明了其在人工和自动评估中的高效性。

Oct, 2020

文本摘要的幻觉多样性感知主动学习

通过在文本摘要中测量语义框架、话述和内容可验证性中的细粒度错误，我们提出了第一个主动学习框架来减轻 LLM 幻觉，减少对幻觉错误的昂贵人工注释。经过对三个数据集和不同主干模型的广泛实验，我们的方法在有效和高效地减轻 LLM 幻觉方面具有优势。

Apr, 2024

用合成任务教授语言模型减少产生幻觉

通过合成任务对大型语言模型进行系统信息优化，可降低其在真实任务中的错误生成，从而减少幻觉现象。

Oct, 2023