对话摘要中忠实度的分析和评估
本文提出系统研究 faithfulness metrics 在对话摘要任务上的应用,发现对于绝大部分度量方法而言,在对话数据上的表现与人类判断的相关性较差。为了提高 faithfulness metrics 在对话摘要任务上的性能,我们还采用了 fine-tuning on in-domain dataset 和 unlikelihood training on negative samples 等技术。最后提出 T0-Score 度量方法,其在多个领域上均能稳定提高评价性能。
Nov, 2022
本文提出了一种评估总结系统忠实度的框架,通过生成一个在抽象程度不同操作点的抽象 - 提取度交替曲线来作为控制,然后展示作者提出的一种方法以及目前的 MLE 基准都在相同的抽象水平上比控制更差。接着,我们学习了一个选择器来确定给定文档最忠实和最抽象的总结,并显示该系统能在二个数据集上通过人类评估获得更高的忠实度分数,并比基准系统更具抽象性。此外,我们展示了本系统能够实现更好的抽象 - 提取度交替权衡。
Aug, 2021
分析了神经文本生成模型在抽象文档摘要生成方面的局限性,并发现这些模型非常容易产生虚假内容。人类评估显示,预训练模型生成的摘要不仅在原始度量标准(即 ROUGE)方面更好,而且在生成忠实和真实摘要方面也更好,文本蕴含度量更好地相关于忠实度,有可能成为自动评估度量标准以及训练和解码标准的前景。
May, 2020
研究利用自然语言推理(NLI)模型来提高对话摘要的覆盖率和忠实度,通过计算细粒度训练信号,产生内容在参考摘要中未被涵盖,并且区分生成的句子是与事实一致或不一致的,通过 DialogSum 和 SAMSum 数据集的实验证实该方法的有效性,并通过自动度量和人类评估进行验证,另外,评估三个不同维度的对话摘要,计算常用自动度量与人类判断之间的相关性,以提供有关最适合评估对话摘要的度量标准的见解。
Jan, 2023
本研究针对长文本自动摘要难以进行人工评估的问题,通过对 162 篇长文本摘要论文的调研,提出了一种针对长文本自动摘要信度评估的人工评估指南 LongEval,其中包括如何实现准确的信度得分,减少评估者的工作量,以及人工与自动化对齐等方面的考虑,并通过在两个不同领域的长文本摘要数据集上进行注释研究,发现在精细度方面,如句子的级别,能够显著降低评估者之间的差异。
Jan, 2023
本研究提出了 Faithfulness Enhanced Summarization (FES) 模型,该模型使用 question-answering (QA) 技术检查 encoder 是否完全理解输入文档,并回答关键信息的问题,并引入 max-margin loss 来防止语言模型的过度自信。实验表明,我们的模型在两个基准摘要数据集 CNN/DM 和 XSum 上显著优于强对比模型,并生成比对比模型更符合事实的摘要。
Oct, 2022
该研究提出了一种基于自动问答的 faithfulness 评估度量方式(FEQA),并发现当前的神经抽象概括模型存在抽象度和忠实度的权衡关系。
May, 2020