填空题：无需人工评估的文档摘要质量评估

ACLFeb, 2020

填空题：无需人工评估的文档摘要质量评估

Fill in the BLANC: Human-free quality estimation of document summaries

Oleg Vasilyev, Vedant Dharnidharka, John Bohannon

TL;DRBLANC 是一种自动评估文档摘要质量的新方法，它利用预训练的语言模型衡量摘要对文档理解任务的性能提升来实现对功能性表现的客观、可重复和完全自动化的度量，并在不需要参考摘要的情况下实现了完全无需人类干预的摘要质量评估。

Abstract

We present blanc, a new approach to the automatic estimation of document summary quality. Our goal is to measure the functional performance of a summary with an objective, reproducible, and fully automated method. Our approach achieves this by measuring the →

blanc document summary quality language model performance boost human-free summary quality estimation

发现论文，激发创造

使用语言模型玩 Shannon 游戏：一种无需人类参与的文章摘要评估方法

本篇论文提出了一种新型无需参考文献的摘要评价指标，利用预训练语言模型来评估文档和其摘要之间共享的信息内容，此指标是之前提出的摘要质量评分方法 Shannon Game 的现代演化版本，并通过实验证明，基于 Transformer 的语言模型得到的指标与人类判断摘要质量的相关性达到了最先进的水平，可用于衡量摘要的连贯性、相关性、一致性和流畅性。

Mar, 2021

通过对比学习无监督无参考摘要质量评估

本研究提出了一种基于 BERT 的新度量方法，通过无监督对比学习，评估文档摘要的质量，并且证明了该方法可以在没有参考摘要的情况下胜过其他指标。

Oct, 2020

文本摘要质量评估方法的比较研究

基于大型语言模型的方法用于评估文本摘要，与人工评估相比，其结果接近，并且比常用的自动度量方法更一致。因此，我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架，具有广泛的关注度。

Jun, 2024

通过语义相似性学习能更好地实现抽象摘要化

本文探讨基于预训练语言模型的摘要生成模型。通过与基准数据集 CNN/DM 的参考摘要的人工评估比较，发现相对于参考摘要而言，由最新的语言模型 BART 生成更高分的摘要。我们对 CNN/DM 数据集内在特性、预训练语言模型的进展及其对训练数据的泛化能力进行了分析，最终提出了对于提高抽象化摘要生成的学习方法的思考。

Feb, 2020

自然语言评估中去偏置自动度量的代价

本文提出使用控制变量方法，结合自动评价指标与人工评价来获取代价较低的无偏估计，在对文摘和开放式问题回答进行评估时，可以实现 7-13% 的代价降低，同时强调了自动评价指标和提示方式是进一步降低代价的关键瓶颈。

Jul, 2018

朝向神经语言评估器

该研究回顾了 BLEU 和 ROUGE 两种不足，并提出了衡量文本摘要的好指标需要具备的标准以及使用最近的基于 Transformers 的语言模型来评估参考摘要与假设摘要的具体方法。

Sep, 2019

QuestEval: 基于事实的评估对于摘要很重要

本文提出了一种称为 QuestEval 的新方法，通过问题回答模型评估摘要是否包含源文档中的所有相关信息，从而在一致性、连贯性、流畅性和相关性等四个评估维度上，显著改善了与人类判断的相关性，而不需要任何先验参考。

Mar, 2021

从人类反馈中学习摘要

通过使用强化学习优化模型的奖励函数来预测人类偏好总结，本文展示了可显著提高总结质量的可能性，并在 TL;DR 数据集上取得了显著的优势。

Sep, 2020

强大长文摘要化还有多远？

本文通过对长文档的人工精细注释对抽象大纲概述系统进行了评估，并显示了 ROUGE 在长文档摘要内容相关性评估方面的优越性，并提出了发展事实一致性度量的方向。最后，我们发布了我们注释的长文档数据集，希望能为更广泛的概述设置开发度量做出贡献。

Oct, 2022

答案联合！增强摘要模型的无监督度量

使用强化学习的抽象化概括方法已经被提出来克服传统极大似然估计的限制，提出了一些使用问题回答作为替代评价指标的模型，并在人工和自动评价指标上取得了较大的提升。

Sep, 2019