对话摘要中忠实度的分析和评估

EMNLPOct, 2022

Analyzing and Evaluating Faithfulness in Dialogue Summarization

Bin Wang, Chen Zhang, Yan Zhang, Yiming Chen, Haizhou Li

TL;DR本文提出了一种系统评估对话摘要的方法，并通过人工分析发现现有模型中有超过 35% 生成的摘要与原始对话不符，其评估工具与样本数据可用于未来的研究。

Abstract

dialogue summarization is abstractive in nature, making it suffer from factual errors. The factual correctness of summaries has the highest priority before practical applications. Many efforts have been made to i

dialogue summarization factual errors faithfulness evaluation summarization models human analysis

发现论文，激发创造

ED-FAITH: 评估对话摘要的忠实度

本文提出系统研究 faithfulness metrics 在对话摘要任务上的应用，发现对于绝大部分度量方法而言，在对话数据上的表现与人类判断的相关性较差。为了提高 faithfulness metrics 在对话摘要任务上的性能，我们还采用了 fine-tuning on in-domain dataset 和 unlikelihood training on negative samples 等技术。最后提出 T0-Score 度量方法，其在多个领域上均能稳定提高评价性能。

Nov, 2022

人在环节下的抽象式对话摘要

本文提出引入不同层次的人类反馈，结合增强学习以提高抽象对话摘要的质量。实验表明，该方法在人类判断方面优于监督式基线，并能提高摘要质量。

Dec, 2022

信实还是提取？关于在抽取式摘要中缓解信实性和提取性之间的权衡

本文提出了一种评估总结系统忠实度的框架，通过生成一个在抽象程度不同操作点的抽象 - 提取度交替曲线来作为控制，然后展示作者提出的一种方法以及目前的 MLE 基准都在相同的抽象水平上比控制更差。接着，我们学习了一个选择器来确定给定文档最忠实和最抽象的总结，并显示该系统能在二个数据集上通过人类评估获得更高的忠实度分数，并比基准系统更具抽象性。此外，我们展示了本系统能够实现更好的抽象 - 提取度交替权衡。

Aug, 2021

论抽象化摘要中的忠实度与客观性

分析了神经文本生成模型在抽象文档摘要生成方面的局限性，并发现这些模型非常容易产生虚假内容。人类评估显示，预训练模型生成的摘要不仅在原始度量标准（即 ROUGE）方面更好，而且在生成忠实和真实摘要方面也更好，文本蕴含度量更好地相关于忠实度，有可能成为自动评估度量标准以及训练和解码标准的前景。

May, 2020

CONFIT：基于语言学对比微调的忠实对话摘要

通过 ConFiT 训练方法及一系列的模块化目标来改善抽象型对话摘要的事实准确性，最终生成的摘要数据质量得到了显著提高。

Dec, 2021

SWING: 对话摘要的覆盖率和准确性的平衡

研究利用自然语言推理（NLI）模型来提高对话摘要的覆盖率和忠实度，通过计算细粒度训练信号，产生内容在参考摘要中未被涵盖，并且区分生成的句子是与事实一致或不一致的，通过 DialogSum 和 SAMSum 数据集的实验证实该方法的有效性，并通过自动度量和人类评估进行验证，另外，评估三个不同维度的对话摘要，计算常用自动度量与人类判断之间的相关性，以提供有关最适合评估对话摘要的度量标准的见解。

Jan, 2023

LongEval：长文摘要人工评估的忠实度指南

本研究针对长文本自动摘要难以进行人工评估的问题，通过对 162 篇长文本摘要论文的调研，提出了一种针对长文本自动摘要信度评估的人工评估指南 LongEval，其中包括如何实现准确的信度得分，减少评估者的工作量，以及人工与自动化对齐等方面的考虑，并通过在两个不同领域的长文本摘要数据集上进行注释研究，发现在精细度方面，如句子的级别，能够显著降低评估者之间的差异。

Jan, 2023

忠于原始：事实感知的神经网络抽象摘要

提出了一种基于句法和信息提取的双重注意序列到序列框架，该框架旨在解决抽象汇总中存在的虚假事实问题，并使生成的汇总同时具有信息丰富性和语义准确性。

Nov, 2017

提高抽象化摘要中的忠实性

本研究提出了 Faithfulness Enhanced Summarization (FES) 模型，该模型使用 question-answering (QA) 技术检查 encoder 是否完全理解输入文档，并回答关键信息的问题，并引入 max-margin loss 来防止语言模型的过度自信。实验表明，我们的模型在两个基准摘要数据集 CNN/DM 和 XSum 上显著优于强对比模型，并生成比对比模型更符合事实的摘要。

Oct, 2022

FEQA: 抽象摘要中忠实度评估的问答评估框架

该研究提出了一种基于自动问答的 faithfulness 评估度量方式（FEQA），并发现当前的神经抽象概括模型存在抽象度和忠实度的权衡关系。

May, 2020