重温科技论文摘要评估

Apr, 2016

Revisiting Summarization Evaluation for Scientific Articles

Arman Cohan, Nazli Goharian

TL;DR本篇论文专门研究了用于科技文章摘要的评估度量，对 ROUGE 的效果进行广泛分析，发现 ROUGE 不太可靠，提出了 SERA 作为科技文章摘要评估的一种有效指标。

Abstract

Evaluation of text summarization approaches have been mostly based on metrics that measure similarities of system generated summaries with a set of human written gold-standard summaries. The most widely used metric in summarization evaluation has been the →

text summarization evaluation metrics rouge scientific article summarization sera

发现论文，激发创造

文本摘要中评价的重评估

本文重新评估了文本摘要的评估方法，使用最新的数据集和系统输出来评估评估指标的可靠性，并发现旧数据集上对评估指标的结论不一定适用于现代数据集和系统。

Oct, 2020

利用词嵌入进行 ROUGE 更好的摘要评估

本文探讨了借助 Word Embedding 计算摘要中的语义相似度来代替传统的基于词汇重叠度的 ROUGE 自动评估方法存在的偏差，实验结果显示该方法比传统方法更能准确地与人工评估结果相符。

Aug, 2015

ROUGE 2.0: 更新和改进的自动文摘任务评估指标

介绍 ROUGE2.0 对机器生成的摘要的自动评估方法，包括 ROUGE-N + 同义词、ROUGE-Topic、ROUGE-Topic + 同义词、ROUGE-TopicUniq 和 ROUGE-TopicUniq + 同义词等几种改进的 ROUGE 指标，用于改善原有指标在捕捉同义概念和内容覆盖方面的局限性。

Mar, 2018

答案联合！增强摘要模型的无监督度量

使用强化学习的抽象化概括方法已经被提出来克服传统极大似然估计的限制，提出了一些使用问题回答作为替代评价指标的模型，并在人工和自动评价指标上取得了较大的提升。

Sep, 2019

通过语义相似性学习能更好地实现抽象摘要化

本文探讨基于预训练语言模型的摘要生成模型。通过与基准数据集 CNN/DM 的参考摘要的人工评估比较，发现相对于参考摘要而言，由最新的语言模型 BART 生成更高分的摘要。我们对 CNN/DM 数据集内在特性、预训练语言模型的进展及其对训练数据的泛化能力进行了分析，最终提出了对于提高抽象化摘要生成的学习方法的思考。

Feb, 2020

针对韩语文摘的参考文献和文档感知语义评估方法

本文提出了一种衡量文本摘要的方法，即参考文献和文档感知语义得分（RDASS），用于韩语这种将各种语素组合成表达多种含义的词汇的语言。通过我们的评估指标，可以提高文本概括的人类判断相关性。研究结果表明，我们的评估指标与人类判断的相关性显著高于 ROUGE 得分。

Apr, 2020

QuestEval: 基于事实的评估对于摘要很重要

本文提出了一种称为 QuestEval 的新方法，通过问题回答模型评估摘要是否包含源文档中的所有相关信息，从而在一致性、连贯性、流畅性和相关性等四个评估维度上，显著改善了与人类判断的相关性，而不需要任何先验参考。

Mar, 2021

ROUGE-K：您的摘要是否含有关键词？

我们提出了一种关键词取向的评估指标 ——ROUGE-K，该指标通过定量回答 “摘要中是否包含关键词” 这个问题来评估自动摘要模型是否包含有信息性的单词。通过这种关键词感知的度量方法，我们令人惊讶地发现，当前的一个强基准模型在摘要中常常会遗漏重要信息。我们的分析揭示了人工注释者确实认为包含更多关键词的摘要与源文档更相关。最后，为了增加关键词的包含，我们提出了四种将词重要性融入基于变换器的模型的方法，并通过实验证明这样做可以在保持总体质量的同时引导模型包含更多关键词。

Mar, 2024

文本摘要质量评估方法的比较研究

基于大型语言模型的方法用于评估文本摘要，与人工评估相比，其结果接近，并且比常用的自动度量方法更一致。因此，我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架，具有广泛的关注度。

Jun, 2024

重新审视自动摘要评估指标的系统层面相关性

本文探讨了自动文摘评估指标能够准确复制人类总结质量判断的可靠性，并提出了对现有评估体系的变更，以改善两个方面的偏差，这两个方面分别是评估指标使用的方法与实际评估系统的方式不一致，以及通过只计算小得分差距的系统之间的相关性来计算相关性。通过此研究，提出了收集更多高质量的人类判断和在系统得分差距小的情况下改进自动评估指标的必要性。

Apr, 2022