面向 facet 的提取式摘要评估

ACLAug, 2019

Facet-Aware Evaluation for Extractive Summarization

Yuning Mao, Liyuan Liu, Qi Zhu, Xiang Ren, Jiawei Han

TL;DR本文旨在为提高文本摘要信息覆盖性的评估提供一个新的基于 Facet 的评估方式，通过构建 CNN / Daily Mail 数据集的提取版本，在量化研究中证明，相对于 ROUGE，facet-aware 评估更好地与人类判断相关，能够实现细粒度评估和比较分析，并揭示了最先进的摘要方法的有价值的见解。

Abstract

Commonly adopted metrics for extractive summarization focus on lexical overlap at the token level. In this paper, we present a facet-aware evaluation setup for better assessment of the →

extractive summarization facet-aware evaluation information coverage support sentences comparative analysis

发现论文，激发创造

科学摘要评估的反思：在面向因素的基准上建立可解释指标

本研究分析和评估了预训练的大型语言模型在科学文献摘要中的应用，并介绍了 Facet-aware Metric 评估方法以及 Facet-based 科学摘要数据集的构建。研究表明，Facet-aware Metric 提供了一种更加合理的科学摘要评估方法，而在科学领域，经过精细调整的较小模型可以与大型语言模型竞争，但大型语言模型在学习科学领域中的上下文信息方面存在局限性，需要进一步改进。

Feb, 2024

基于文本匹配的抽取式摘要

通过语义文本匹配任务范式，本论文提出了一种新的神经抽取式摘要系统构建方法。经过与原有抽取式摘要方法数据集的实验对比，该方法取得了更好的抽取结果，并通过对 CNN / DailyMail 数据集的实验，创造了 44.41 的新高水平。我们相信，这种基于匹配的摘要框架的潜力还未完全被利用。

Apr, 2020

SummEval: 重评摘要评估

本文针对现有的缺陷和问题，提出了五个维度的解决方案，从而能够扩大文本摘要的评估标准，并且进一步研究出与人类判断更加相关的评价指标。

Jul, 2020

OpinSummEval: 重新审视舆情摘要自动评估

观点总结与其他类型的总结任务有所不同，因为其独特关注于方面和情感。本文介绍了 OpinSummEval，它是一个包含人工评价和 14 个观点总结模型输出的数据集。我们进一步探讨了 24 个自动评估指标与人工评分之间在四个维度上的相关性。结果表明，基于神经网络的指标通常优于非神经网络的指标。然而，即使是构建在强大的模型基础之上，如 BART 和 GPT-3/3.5，也不能在所有维度上一致地与人工评分相关，凸显了观点总结自动评估方法的进步需求。代码和数据可在此 URL 公开获取。

Oct, 2023

自动新闻摘要

本研究论文针对新闻文本自动摘要的抽取和生成方法进行了广泛的比较评估，重点分析了 ROUGE 分数。研究使用 CNN-Daily Mail 数据集，包括新闻文章和人工生成的参考摘要。通过 ROUGE 分数评估生成摘要的效果和质量，再将表现最佳的模型整合到 Web 应用程序中，评估其在真实世界中的能力和用户体验。

Oct, 2023

通过对比学习无监督无参考摘要质量评估

本研究提出了一种基于 BERT 的新度量方法，通过无监督对比学习，评估文档摘要的质量，并且证明了该方法可以在没有参考摘要的情况下胜过其他指标。

Oct, 2020

文本摘要中评价的重评估

本文重新评估了文本摘要的评估方法，使用最新的数据集和系统输出来评估评估指标的可靠性，并发现旧数据集上对评估指标的结论不一定适用于现代数据集和系统。

Oct, 2020

为长篇科技文献带来结构：一个多方位摘要数据集

本文介绍了 FacetSum 这一基于 Emerald 期刊文章的多方位摘要基准数据集，其不同于传统的文档 - 摘要对，提供了多个摘要，针对长文档的不同部分，包括目的、方法、发现和价值等方面，对数据集的分析和实证结果揭示了将结构引入摘要的重要性。我们相信 FacetSum 将推动摘要研究的进一步发展，促进 NLP 系统在长文本和摘要中利用结构信息的发展。

May, 2021

通过语义相似性学习能更好地实现抽象摘要化

本文探讨基于预训练语言模型的摘要生成模型。通过与基准数据集 CNN/DM 的参考摘要的人工评估比较，发现相对于参考摘要而言，由最新的语言模型 BART 生成更高分的摘要。我们对 CNN/DM 数据集内在特性、预训练语言模型的进展及其对训练数据的泛化能力进行了分析，最终提出了对于提高抽象化摘要生成的学习方法的思考。

Feb, 2020

iFacetSum: 多文档探索的基于共指的交互式分面摘要

iFacetSum 是一个集成了交互式摘要和多维搜索的网络应用程序，提供了一种新颖的多维导航方案，可为用户的选择生成抽象摘要。该方法基于跨文本指称关系管道自动产生细粒度的多维信息，经过用户研究证明其具有实用性。

Sep, 2021