利用词嵌入进行 ROUGE 更好的摘要评估

EMNLPAug, 2015

利用词嵌入进行 ROUGE 更好的摘要评估

Better Summarization Evaluation with Word Embeddings for ROUGE

Jun-Ping Ng, Viktoria Abrecht

TL;DR本文探讨了借助 Word Embedding 计算摘要中的语义相似度来代替传统的基于词汇重叠度的 ROUGE 自动评估方法存在的偏差，实验结果显示该方法比传统方法更能准确地与人工评估结果相符。

Abstract

rouge is a widely adopted, automatic evaluation measure for text summarization. While it has been shown to correlate well with human judgements, it is biased towards surface lexical similarities. This makes it un

rouge text summarization evaluation word embeddings semantic similarity

发现论文，激发创造

通过语义相似性学习能更好地实现抽象摘要化

本文探讨基于预训练语言模型的摘要生成模型。通过与基准数据集 CNN/DM 的参考摘要的人工评估比较，发现相对于参考摘要而言，由最新的语言模型 BART 生成更高分的摘要。我们对 CNN/DM 数据集内在特性、预训练语言模型的进展及其对训练数据的泛化能力进行了分析，最终提出了对于提高抽象化摘要生成的学习方法的思考。

Feb, 2020

重温科技论文摘要评估

本篇论文专门研究了用于科技文章摘要的评估度量，对 ROUGE 的效果进行广泛分析，发现 ROUGE 不太可靠，提出了 SERA 作为科技文章摘要评估的一种有效指标。

Apr, 2016

ROUGE 2.0: 更新和改进的自动文摘任务评估指标

介绍 ROUGE2.0 对机器生成的摘要的自动评估方法，包括 ROUGE-N + 同义词、ROUGE-Topic、ROUGE-Topic + 同义词、ROUGE-TopicUniq 和 ROUGE-TopicUniq + 同义词等几种改进的 ROUGE 指标，用于改善原有指标在捕捉同义概念和内容覆盖方面的局限性。

Mar, 2018

以词和句相似性重新思考评估

本文提出了 EvalRank 作为一种新的内部评估方法，它在 60 多个模型和流行数据集上进行了深入的实验，并释放了实用的评估工具包用于未来的基准测试。

Mar, 2022

文本摘要中评价的重评估

本文重新评估了文本摘要的评估方法，使用最新的数据集和系统输出来评估评估指标的可靠性，并发现旧数据集上对评估指标的结论不一定适用于现代数据集和系统。

Oct, 2020

针对韩语文摘的参考文献和文档感知语义评估方法

本文提出了一种衡量文本摘要的方法，即参考文献和文档感知语义得分（RDASS），用于韩语这种将各种语素组合成表达多种含义的词汇的语言。通过我们的评估指标，可以提高文本概括的人类判断相关性。研究结果表明，我们的评估指标与人类判断的相关性显著高于 ROUGE 得分。

Apr, 2020

ROUGE-K：您的摘要是否含有关键词？

我们提出了一种关键词取向的评估指标 ——ROUGE-K，该指标通过定量回答 “摘要中是否包含关键词” 这个问题来评估自动摘要模型是否包含有信息性的单词。通过这种关键词感知的度量方法，我们令人惊讶地发现，当前的一个强基准模型在摘要中常常会遗漏重要信息。我们的分析揭示了人工注释者确实认为包含更多关键词的摘要与源文档更相关。最后，为了增加关键词的包含，我们提出了四种将词重要性融入基于变换器的模型的方法，并通过实验证明这样做可以在保持总体质量的同时引导模型包含更多关键词。

Mar, 2024

答案联合！增强摘要模型的无监督度量

使用强化学习的抽象化概括方法已经被提出来克服传统极大似然估计的限制，提出了一些使用问题回答作为替代评价指标的模型，并在人工和自动评价指标上取得了较大的提升。

Sep, 2019

在抽象摘要中平衡词汇和语义质量

本文针对序列到序列的神经网络中常见的曝光偏差问题，提出了一种在词法和语义质量之间平衡的重排序方法，并以 BERTScore 为衡量标准，在 CNN/DailyMail 数据集上实现了新的最优表现。

May, 2023

基于 RL 的句子摘要中语法蕴含的质量

本文比较了强化学习（RL）和基于句法的模型（如基于词性标注和依存信息的模型）两种文摘方法的优劣，并探究了它们在生成摘要时的影响，得出了使用两种方法的联合模型在质量评估方面表现最佳，但仅使用强化学习的训练无需更少的参数和更快的训练收敛即可得到与基于句法模型相近的好结果。

Dec, 2019