WIDAR -- 加权输入文档增强 ROUGE

Jan, 2022

WIDAR -- Weighted Input Document Augmented ROUGE

Raghav Jain, Vaibhav Mavi, Anubhav Jangra, Sriparna Saha

TL;DR提出了一种名为 WIDAR 的度量标准，该度量标准使用参考摘要和输入文档评估生成摘要的质量，并且预计的度量标准与其他最新技术的度量标准的结果相当，同时需要相对较短的计算时间。

Abstract

The task of automatic text summarization has gained a lot of traction due to the recent advancements in machine learning techniques. However, evaluating the quality of a generated summary remains to be an open pr

automatic text summarization machine learning techniques evaluation metric recognition-oriented understudy for gisting evaluation proposed metric

发现论文，激发创造

针对韩语文摘的参考文献和文档感知语义评估方法

本文提出了一种衡量文本摘要的方法，即参考文献和文档感知语义得分（RDASS），用于韩语这种将各种语素组合成表达多种含义的词汇的语言。通过我们的评估指标，可以提高文本概括的人类判断相关性。研究结果表明，我们的评估指标与人类判断的相关性显著高于 ROUGE 得分。

Apr, 2020

文本摘要中评价的重评估

本文重新评估了文本摘要的评估方法，使用最新的数据集和系统输出来评估评估指标的可靠性，并发现旧数据集上对评估指标的结论不一定适用于现代数据集和系统。

Oct, 2020

利用词嵌入进行 ROUGE 更好的摘要评估

本文探讨了借助 Word Embedding 计算摘要中的语义相似度来代替传统的基于词汇重叠度的 ROUGE 自动评估方法存在的偏差，实验结果显示该方法比传统方法更能准确地与人工评估结果相符。

Aug, 2015

基于多参考的重复感知增益评估的提取式摘要

通过提出一个考虑冗余问题的新 Sem-nCG 度量方法，可以用于对模型生成摘要进行多重参考评估，并在单一和多参考模型场景中与人类判断更高相关性。

Aug, 2023

通过对比学习无监督无参考摘要质量评估

本研究提出了一种基于 BERT 的新度量方法，通过无监督对比学习，评估文档摘要的质量，并且证明了该方法可以在没有参考摘要的情况下胜过其他指标。

Oct, 2020

重温科技论文摘要评估

本篇论文专门研究了用于科技文章摘要的评估度量，对 ROUGE 的效果进行广泛分析，发现 ROUGE 不太可靠，提出了 SERA 作为科技文章摘要评估的一种有效指标。

Apr, 2016

ROUGE-K：您的摘要是否含有关键词？

我们提出了一种关键词取向的评估指标 ——ROUGE-K，该指标通过定量回答 “摘要中是否包含关键词” 这个问题来评估自动摘要模型是否包含有信息性的单词。通过这种关键词感知的度量方法，我们令人惊讶地发现，当前的一个强基准模型在摘要中常常会遗漏重要信息。我们的分析揭示了人工注释者确实认为包含更多关键词的摘要与源文档更相关。最后，为了增加关键词的包含，我们提出了四种将词重要性融入基于变换器的模型的方法，并通过实验证明这样做可以在保持总体质量的同时引导模型包含更多关键词。

Mar, 2024

通过语义相似性学习能更好地实现抽象摘要化

本文探讨基于预训练语言模型的摘要生成模型。通过与基准数据集 CNN/DM 的参考摘要的人工评估比较，发现相对于参考摘要而言，由最新的语言模型 BART 生成更高分的摘要。我们对 CNN/DM 数据集内在特性、预训练语言模型的进展及其对训练数据的泛化能力进行了分析，最终提出了对于提高抽象化摘要生成的学习方法的思考。

Feb, 2020

一种无需训练和参考的摘要评估度量方法：基于中心性加权相关性和自我引用冗余度量

该论文提出了一种无需参考文献且无需训练的摘要评估度量方法，包括中心性加权相关度分数和自我参考冗余分数。实验结果表明，该方法在单篇和多篇文档摘要评估方面显著优于现有方法。

Jun, 2021

医学多文献摘要自动评估指标与人类评估不符

为了改进文献综述的多文件摘要 (MDS)，引入包含人工评估的摘要质量特征和成对偏好的数据集，以支持开发更好的自动评估方法，分析了自动摘要评估度量与生成的摘要词汇特征、其他自动度量以及人工评估摘要质量方面的相关性。发现自动化度量无法完全捕捉到人工评估所评估的质量方面。

May, 2023