FENICE: 基于自然语言推理和主张提取的摘要真实性评估

Mar, 2024

FENICE: 基于自然语言推理和主张提取的摘要真实性评估

FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction

Alessandro Scirè, Karim Ghonim, Roberto Navigli

TL;DR最近在文本摘要方面的最新进展，尤其是随着大型语言模型（LLM）的出现，其表现出色。然而，存在一个明显的挑战，即大量自动生成的摘要存在事实不一致的问题，如幻觉。针对这个问题，出现了各种检验摘要一致性的方法。然而，这些新引入的度量指标都存在一些限制，包括解释性的缺乏、关注短文档摘要（例如新闻文章）以及计算上的不便，尤其是基于 LLM 的度量。为了解决这些缺点，我们提出了基于自然语言推理和主张提取（FENICE）的事实性评估摘要度量。FENICE 利用了源文件中的信息和从摘要中提取的一组原子事实（称为主张）之间的一个基于 NLI 的对齐。我们的度量在事实性评估的事实上设立了一个新的标杆，即默认标准 AGGREFACT。此外，我们通过进行长篇摘要的人工注释过程，将我们的评估扩展到了更具挑战性的环境中。

Abstract

Recent advancements in text summarization, particularly with the advent of large language models (LLMs), have shown remarkable performance. However, a notable challenge persists as a substantial number of automat

text summarization large language models factual inconsistencies factuality evaluation natural language inference

发现论文，激发创造

mFACE: 多语言事实一致性评估自动摘要

本文探讨了利用基于事实一致性评估模型的数据过滤和控制生成两种方法来改善跨语言自动摘要的结果，针对语义幻觉生成的问题在提高多语言自动摘要性能方面取得了较好的结果。

Dec, 2022

在大语言模型时代的摘要一致性评估

自动产生的摘要与源文件的实际不一致可能导致错误信息或存在风险。现有的实际一致性（FC）指标受性能、效率和可解释性的限制。大型语言模型（LLM）的最新进展在文本评估方面表现出了显著的潜力，但其在总结中评估 FC 的效果尚未充分探索。本文首先通过引入 TreatFact 数据集来填补这一空白，该数据集包含由领域专家进行 FC 注释的 LLM 生成的临床文本摘要。此外，我们在新闻和临床领域对 11 个 LLM 进行了 FC 评估，并分析了模型大小、提示、预训练和微调数据的影响。研究发现，尽管专有模型在任务上占主导地位，但开源 LLM 仍然落后。然而，通过增加模型大小、扩展预训练数据和开发精心策划的微调数据，有潜力提升开源 LLM 的性能。在 TreatFact 上的实验表明，先前的方法和基于 LLM 的评估器都无法捕捉到临床摘要中的实际不一致性，给 FC 评估提出了新的挑战。

Feb, 2024

FactPICO：医学证据的简化语言摘要的事实性评估

FactPICO 是一个针对医学文本的纯文本摘要事实性基准，通过细致评估和专家的自然语言解释，评估了基于 LLMs 的三种纯文本摘要生成模型（GPT-4，Llama-2 和 Alpaca）生成的 345 个 RCT 摘要的事实性，解析了 RCT 的关键元素（人口、干预措施、比较、结果）以及相关发现的准确性，也评估了 LLMs 添加的额外信息（如解释）的准确性，研究发现纯文本医学证据的摘要仍然具有挑战性，尤其是在简单性和事实性之间的平衡，并且现有的度量方法与专家判断在实例级别上的相关性较差。

Feb, 2024

基于精细化自然语言推理的多样化摘要任务忠实性评估

我们提出了一种新的方法 InFusE，通过使用可变的前提大小并将摘要句子简化为更短的假设，分析了基于自然语言推理的摘要可信度评估。通过实验证明，在不同的摘要任务中，InFusE 取得了卓越的性能。

Feb, 2024

关于从自然语言反馈中提高摘要的事实一致性

本文中，我们对自然语言生成功能的输出质量提出问题，通过收集人类演示和信息反馈数据集 DeFacto，我们进行了两项自然语言生成任务的研究，旨在通过实现信息反馈来提高自然语言生成模型的质量，改善与用户需求的匹配度。

Dec, 2022

GO FIGURE: 摘要中事实性的元评估

本研究提出了一个基于事实准确性的机器文本自动生成质量评价框架 ——GO FIGURE，针对 10 种不同的事实准确性评价指标进行了评估，结果表明 QA 指标相较于标准指标具有更强的性能，但性能仍高度依赖问题的生成方式。

Oct, 2020

评估抽象文本摘要的事实一致性

该研究提出了一种弱监督、基于模型的方法来验证摘要的事实一致性，并鉴别来源文献和生成的摘要之间的冲突。

Oct, 2019

使用大型语言模型评估摘要的事实一致性

本研究探索采用大型语言模型 (DLM) 来评估摘要的事实一致性，并通过对 GPT 模型系列和 Flan-T5 等不同类型的 DLM 进行分析，以及对多种提示方法进行研究，最终证明了直接针对 DLM 的提示方法在各项测试中均优于当前最先进的摘要事实性系统。

May, 2023

通过反事实估计对文本摘要的实际一致性评估

提出一种基于反事实估算的新型度量标准，用于评估文本摘要的事实一致性，能够帮助改善与人类判断的相关性和使用的便利性。

Aug, 2021

Just ClozE! 在抽象化摘要里评估事实一致性的快速简单方法

本研究提出了一种名为 ClozE 的新方法，采用基于掩码语言模型（MLM）实例化的填空模型来评估抽象化摘要与原始文本之间的事实一致性，并通过六个人工注释数据集和元评估基准 GO FIGURE 的实验表明 ClozE 相对于 QA_metrics 可以将评估时间减少近 96％，同时保持其可解释性和性能。

Oct, 2022