以基于基础语言模型的零 - shot 忠诚度评估文本摘要

EMNLPOct, 2023

以基于基础语言模型的零 - shot 忠诚度评估文本摘要

Zero-shot Faithfulness Evaluation for Text Summarization with Foundation Language Model

Qi Jia, Siyu Ren, Yizhu Liu, Kenny Q. Zhu

TL;DR提出一种新指标 FFLM，结合基于概率变化的方法评估生成模型的忠实度，相比于强基准模型 ChatGPT 拥有更少的参数，并在不一致性检测和忠实度评分方面表现出竞争性和优越性的改进。

Abstract

Despite tremendous improvements in natural language generation, summarization models still suffer from the unfaithfulness issue. Previous work evaluates faithfulness either using models trained on the other tasks

natural language generation summarization models unfaithfulness issue zero-shot faithfulness evaluation fflm

发现论文，激发创造

ED-FAITH: 评估对话摘要的忠实度

本文提出系统研究 faithfulness metrics 在对话摘要任务上的应用，发现对于绝大部分度量方法而言，在对话数据上的表现与人类判断的相关性较差。为了提高 faithfulness metrics 在对话摘要任务上的性能，我们还采用了 fine-tuning on in-domain dataset 和 unlikelihood training on negative samples 等技术。最后提出 T0-Score 度量方法，其在多个领域上均能稳定提高评价性能。

Nov, 2022

FABLES：评估长篇书籍摘要的忠实性与内容选择

通过对虚构书籍的长篇小说生成概述的大规模人类评估，本论文揭示了长篇大语境语言模型在生成摘要时的忠实度和内容选择方面的问题，并且提出了检测生成的摘要中不忠实内容的重要性，同时也探讨了在书籍概述中与关键故事元素相关的遗漏错误以及朝末尾发生事件的系统过度强调。

Apr, 2024

提高抽象化摘要中的忠实性

本研究提出了 Faithfulness Enhanced Summarization (FES) 模型，该模型使用 question-answering (QA) 技术检查 encoder 是否完全理解输入文档，并回答关键信息的问题，并引入 max-margin loss 来防止语言模型的过度自信。实验表明，我们的模型在两个基准摘要数据集 CNN/DM 和 XSum 上显著优于强对比模型，并生成比对比模型更符合事实的摘要。

Oct, 2022

ChatGPT 作为抽象文本摘要的事实不一致性评估器

通过对 ChatGPT 在零 - shot 设置下执行对粗粒度和细粒度事实不一致性评估任务，结果表明 ChatGPT 在三个任务的 6/9 数据集上优于先前 SOTA 评估指标，具有评估事实不一致性的潜力。

Mar, 2023

使用大型语言模型评估摘要的事实一致性

本研究探索采用大型语言模型 (DLM) 来评估摘要的事实一致性，并通过对 GPT 模型系列和 Flan-T5 等不同类型的 DLM 进行分析，以及对多种提示方法进行研究，最终证明了直接针对 DLM 的提示方法在各项测试中均优于当前最先进的摘要事实性系统。

May, 2023

略施推力，NLI 模型可鲁棒高效地预测忠实度

本文提出了一种利用数据增强和鲁棒推理过程将单纯的 NLI 模型用于预测语言模型忠实度的方法，应用于 TRUE 基准来说效果显著且计算代价较小。

May, 2023

自然语言生成中的忠实度：分析、评估和优化方法的系统调查

本文系统综述了自然语言生成（NLG）的忠实度问题和相关评估方法和优化方法，并将不同任务的评估和优化方法组织在一个统一的分类中，以促进不同任务之间的比较和学习。

Mar, 2022

基于大型语言模型的事实对话摘要

通过使用符号知识蒸馏方法改善小型预训练模型的事实一致性，我们在对话摘要中取得了更好的事实一致性，同时保持了连贯性、流畅性和相关性。

Jun, 2024

在大语言模型时代的摘要一致性评估

自动产生的摘要与源文件的实际不一致可能导致错误信息或存在风险。现有的实际一致性（FC）指标受性能、效率和可解释性的限制。大型语言模型（LLM）的最新进展在文本评估方面表现出了显著的潜力，但其在总结中评估 FC 的效果尚未充分探索。本文首先通过引入 TreatFact 数据集来填补这一空白，该数据集包含由领域专家进行 FC 注释的 LLM 生成的临床文本摘要。此外，我们在新闻和临床领域对 11 个 LLM 进行了 FC 评估，并分析了模型大小、提示、预训练和微调数据的影响。研究发现，尽管专有模型在任务上占主导地位，但开源 LLM 仍然落后。然而，通过增加模型大小、扩展预训练数据和开发精心策划的微调数据，有潜力提升开源 LLM 的性能。在 TreatFact 上的实验表明，先前的方法和基于 LLM 的评估器都无法捕捉到临床摘要中的实际不一致性，给 FC 评估提出了新的挑战。

Feb, 2024

概率也很重要：大型语言模型中自由文本解释的忠实度的更为准确的评估指标

评估了 Llama2 系列的少样本提示 LLMs 生成的自由文本解释在三个 NLP 任务上的忠实性，并发现我们的度量考虑了 CT 遗漏的忠实性方面。

Apr, 2024