HaRiM$^+$：使用幻觉风险评估摘要质量

ACLNov, 2022

HaRiM$^+$：使用幻觉风险评估摘要质量

HaRiM$^+$: Evaluating Summary Quality with Hallucination Risk

Seonil Son, Junsoo Park, Jeong-in Hwang, Junghwa Lee, Hyungjong Noh...

TL;DR本研究提出一个基于口令似然性的无参考度量，名为 HaRiM+，用于衡量生成摘要的虚假程度，可以用于衡量摘要质量，且在三个摘要质量注释数据集中均表现出最先进的与人工判断相关性，希望这项工作有助于推动自动摘要模型的发展。

Abstract

One of the challenges of developing a summarization model arises from the difficulty in measuring the factual inconsistency of the generated text. In this study, we reinterpret the decoder overconfidence-regularizing ob

summarization model decoder overconfidence-regularizing objective hallucination risk measurement harim+automated evaluation

发现论文，激发创造

互信息在抽象摘要中减轻幻觉

本文发现了一个简单的标准 —— 模型不确定性高 —— 会导致生成更多的错误内容（即幻觉），并提出了一种解码策略，该策略在存在不确定性时优化源和目标单词的点间互信息，从而减少幻觉的出现，并在 XSum 数据集上进行了实验证明，该方法降低了幻觉的概率，同时保持了黄色和 BertS 得分。

Oct, 2022

用于幻觉检测的度量集合

基于大型语言模型的文本生成具有吸引力，但生成的抽象摘要可能存在解释错误的 “幻觉”。本研究使用一套无监督指标来评估摘要的一致性，并与人工评估得分进行相关性分析。研究发现，基于大型语言模型的方法在幻觉检测方面优于其他无监督指标，而集合方法可以进一步提升性能。最后，本研究提出了一种新的集合方法，比之前的方法有更好的结果。

Oct, 2023

分解验证：检测和减少学术论文摘要中的虚假信息

通过 Factored Verification 方法检测模糊摘要中的幻觉，并评估了其在 HaluEval 基准测试中的状况，结果表明其在幻觉检测方面达到了 76.2% 的准确度。我们使用该方法估计模型在多篇学术论文摘要中产生幻觉的频率，结果显示 ChatGPT (16k) 平均摘要中有 0.62 个幻觉，GPT-4 为 0.84，而 Claude 2 则为 1.55。我们要求模型使用 Factored Critiques 进行自我纠正，结果发现幻觉数量分别下降到了 ChatGPT 的 0.49，GPT-4 的 0.46，以及 Claude 2 的 0.95。由于我们发现的幻觉往往是微妙的，因此在使用模型合成学术论文时需要谨慎。

Oct, 2023

抽象摘要中幻觉缓解的改进束搜索

本研究旨在探讨如何在摘要生成过程中应用自然语言推理来检测和预防虚假信息，通过使用一个 NLI 辅助的 beam排序机制，从而大幅提高基于 XSum 与 CNN/DM 数据集的摘要生成效果。

Dec, 2022

论抽象化摘要中的忠实度与客观性

分析了神经文本生成模型在抽象文档摘要生成方面的局限性，并发现这些模型非常容易产生虚假内容。人类评估显示，预训练模型生成的摘要不仅在原始度量标准（即 ROUGE）方面更好，而且在生成忠实和真实摘要方面也更好，文本蕴含度量更好地相关于忠实度，有可能成为自动评估度量标准以及训练和解码标准的前景。

May, 2020

长文本摘要中的幻觉减少

减少幻觉的输出或概括长文本文档摘要的幻觉是本论文的目标。通过在 Longformer Encoder-Decoder (LED) 模型的微调中结合数据过滤和联合实体与摘要生成（JAENS）技术，我们使用 PubMed 数据集来改善产生的摘要质量，并测量了实体级别的事实一致性。实验结果显示，经过微调的 LED 模型在生成论文摘要方面表现良好，基于一些预处理步骤的数据过滤技术能够减少生成摘要中的实体级别幻觉，从而提高了事实一致性指标。

Sep, 2023

减少抽象总结中的数量幻觉

该文介绍了一种避免概括性摘要中产生的虚假信息的方法，通过学习识别和验证摘要中的数量实体，使得被验证支持的摘要得到提升，这种方法得到人们的好评。

Sep, 2020

基于数据的方法生成忠实和高质量的患者总结（利用大型语言模型）

使用大型语言模型生成基于医生笔记的患者摘要，研究训练数据对生成摘要的准确性和质量的影响，使用对幻觉的严格标注协议，评估基于 Llama 2 和 GPT-4 的生成摘要的幻觉现象及相关信息。

Feb, 2024

多语言摘要中的幻觉检测与缓解

通过发展一种新的度量标准（mFACT）来评估跨语言信实度，利用基于翻译的转移来评估非英语摘要的信实度，通过加权损失方法来减少幻觉，可显著提高交叉语言转移的性能和信实度。

May, 2023

文本摘要的幻觉多样性感知主动学习

通过在文本摘要中测量语义框架、话述和内容可验证性中的细粒度错误，我们提出了第一个主动学习框架来减轻 LLM 幻觉，减少对幻觉错误的昂贵人工注释。经过对三个数据集和不同主干模型的广泛实验，我们的方法在有效和高效地减轻 LLM 幻觉方面具有优势。

Apr, 2024