FABLES：评估长篇书籍摘要的忠实性与内容选择

Apr, 2024

FABLES：评估长篇书籍摘要的忠实性与内容选择

FABLES: Evaluating faithfulness and content selection in book-length summarization

Yekyung Kim, Yapei Chang, Marzena Karpinska, Aparna Garimella, Varun Manjunatha...

TL;DR通过对虚构书籍的长篇小说生成概述的大规模人类评估，本论文揭示了长篇大语境语言模型在生成摘要时的忠实度和内容选择方面的问题，并且提出了检测生成的摘要中不忠实内容的重要性，同时也探讨了在书籍概述中与关键故事元素相关的遗漏错误以及朝末尾发生事件的系统过度强调。

Abstract

While long-context large language models (LLMs) can technically summarize book-length documents (>100K tokens), the length and complexity of the documents have so far prohibited evaluations of input-dependent aspects like →

long-context large language models faithfulness content selection llm-generated summaries book-length summarization

发现论文，激发创造

LongEval：长文摘要人工评估的忠实度指南

本研究针对长文本自动摘要难以进行人工评估的问题，通过对 162 篇长文本摘要论文的调研，提出了一种针对长文本自动摘要信度评估的人工评估指南 LongEval，其中包括如何实现准确的信度得分，减少评估者的工作量，以及人工与自动化对齐等方面的考虑，并通过在两个不同领域的长文本摘要数据集上进行注释研究，发现在精细度方面，如句子的级别，能够显著降低评估者之间的差异。

Jan, 2023

论抽象化摘要中的忠实度与客观性

分析了神经文本生成模型在抽象文档摘要生成方面的局限性，并发现这些模型非常容易产生虚假内容。人类评估显示，预训练模型生成的摘要不仅在原始度量标准（即 ROUGE）方面更好，而且在生成忠实和真实摘要方面也更好，文本蕴含度量更好地相关于忠实度，有可能成为自动评估度量标准以及训练和解码标准的前景。

May, 2020

使用大型语言模型评估摘要的事实一致性

本研究探索采用大型语言模型 (DLM) 来评估摘要的事实一致性，并通过对 GPT 模型系列和 Flan-T5 等不同类型的 DLM 进行分析，以及对多种提示方法进行研究，最终证明了直接针对 DLM 的提示方法在各项测试中均优于当前最先进的摘要事实性系统。

May, 2023

以基于基础语言模型的零 - shot 忠诚度评估文本摘要

提出一种新指标 FFLM，结合基于概率变化的方法评估生成模型的忠实度，相比于强基准模型 ChatGPT 拥有更少的参数，并在不一致性检测和忠实度评分方面表现出竞争性和优越性的改进。

Oct, 2023

通过摘要评估大型语言模型的事实一致性

本文提出了一个新的大语言模型（LLMs）准确性检验基准，称之为 FIB（Factual Inconsistency Benchmark），并在 23 个 1B 到 176B 参数的不同模型家族中评估了其实用性。结果表明，现有的 LLMs 通常将更高的分数分配给事实上一致的总结，但如果不一致的总结在文档中出现，那么 LLMs 将会赋予这些不一致的总结比事实上一致的总结更高的分数。

Nov, 2022

在大语言模型时代的摘要一致性评估

自动产生的摘要与源文件的实际不一致可能导致错误信息或存在风险。现有的实际一致性（FC）指标受性能、效率和可解释性的限制。大型语言模型（LLM）的最新进展在文本评估方面表现出了显著的潜力，但其在总结中评估 FC 的效果尚未充分探索。本文首先通过引入 TreatFact 数据集来填补这一空白，该数据集包含由领域专家进行 FC 注释的 LLM 生成的临床文本摘要。此外，我们在新闻和临床领域对 11 个 LLM 进行了 FC 评估，并分析了模型大小、提示、预训练和微调数据的影响。研究发现，尽管专有模型在任务上占主导地位，但开源 LLM 仍然落后。然而，通过增加模型大小、扩展预训练数据和开发精心策划的微调数据，有潜力提升开源 LLM 的性能。在 TreatFact 上的实验表明，先前的方法和基于 LLM 的评估器都无法捕捉到临床摘要中的实际不一致性，给 FC 评估提出了新的挑战。

Feb, 2024

ED-FAITH: 评估对话摘要的忠实度

本文提出系统研究 faithfulness metrics 在对话摘要任务上的应用，发现对于绝大部分度量方法而言，在对话数据上的表现与人类判断的相关性较差。为了提高 faithfulness metrics 在对话摘要任务上的性能，我们还采用了 fine-tuning on in-domain dataset 和 unlikelihood training on negative samples 等技术。最后提出 T0-Score 度量方法，其在多个领域上均能稳定提高评价性能。

Nov, 2022

对话摘要中忠实度的分析和评估

本文提出了一种系统评估对话摘要的方法，并通过人工分析发现现有模型中有超过 35% 生成的摘要与原始对话不符，其评估工具与样本数据可用于未来的研究。

Oct, 2022

BooookScore：基于 LLMs 时代的图书摘要系统性研究

通过两种工作流程 (层级合并、递增更新) 实现基于 LLM 的书籍摘要器的连贯性研究，发现 LLM 会出现八种常见的连贯性错误，并提出了一个自动评估指标 BooookScore，与人工标注结果一致，可用于系统评估其他关键参数的影响，同时节省了人工评估成本。

Oct, 2023

长篇医疗记录摘要忠实性计量方法的元评估

本研究基于 HIV 病人的病例史，对临床文本摘要的可信度指标进行评估，从医学专业人员和患者两方面来获得实际应用价值。评估表明，大多数指标在提供与源文本相关的最小信息上，可显著提高其与人类判断的相关性。

Mar, 2023