本文提出了一种衡量文本摘要的方法,即参考文献和文档感知语义得分(RDASS),用于韩语这种将各种语素组合成表达多种含义的词汇的语言。通过我们的评估指标,可以提高文本概括的人类判断相关性。研究结果表明,我们的评估指标与人类判断的相关性显著高于 ROUGE 得分。
Apr, 2020
本文重新评估了文本摘要的评估方法,使用最新的数据集和系统输出来评估评估指标的可靠性,并发现旧数据集上对评估指标的结论不一定适用于现代数据集和系统。
Oct, 2020
本文探讨了借助 Word Embedding 计算摘要中的语义相似度来代替传统的基于词汇重叠度的 ROUGE 自动评估方法存在的偏差,实验结果显示该方法比传统方法更能准确地与人工评估结果相符。
Aug, 2015
通过提出一个考虑冗余问题的新 Sem-nCG 度量方法,可以用于对模型生成摘要进行多重参考评估,并在单一和多参考模型场景中与人类判断更高相关性。
Aug, 2023
本研究提出了一种基于 BERT 的新度量方法,通过无监督对比学习,评估文档摘要的质量,并且证明了该方法可以在没有参考摘要的情况下胜过其他指标。
本篇论文专门研究了用于科技文章摘要的评估度量,对 ROUGE 的效果进行广泛分析,发现 ROUGE 不太可靠,提出了 SERA 作为科技文章摘要评估的一种有效指标。
Apr, 2016
我们提出了一种关键词取向的评估指标 ——ROUGE-K,该指标通过定量回答 “摘要中是否包含关键词” 这个问题来评估自动摘要模型是否包含有信息性的单词。通过这种关键词感知的度量方法,我们令人惊讶地发现,当前的一个强基准模型在摘要中常常会遗漏重要信息。我们的分析揭示了人工注释者确实认为包含更多关键词的摘要与源文档更相关。最后,为了增加关键词的包含,我们提出了四种将词重要性融入基于变换器的模型的方法,并通过实验证明这样做可以在保持总体质量的同时引导模型包含更多关键词。
Mar, 2024
本文探讨基于预训练语言模型的摘要生成模型。通过与基准数据集 CNN/DM 的参考摘要的人工评估比较,发现相对于参考摘要而言,由最新的语言模型 BART 生成更高分的摘要。我们对 CNN/DM 数据集内在特性、预训练语言模型的进展及其对训练数据的泛化能力进行了分析,最终提出了对于提高抽象化摘要生成的学习方法的思考。
Feb, 2020
该论文提出了一种无需参考文献且无需训练的摘要评估度量方法,包括中心性加权相关度分数和自我参考冗余分数。实验结果表明,该方法在单篇和多篇文档摘要评估方面显著优于现有方法。
Jun, 2021
为了改进文献综述的多文件摘要 (MDS),引入包含人工评估的摘要质量特征和成对偏好的数据集,以支持开发更好的自动评估方法,分析了自动摘要评估度量与生成的摘要词汇特征、其他自动度量以及人工评估摘要质量方面的相关性。发现自动化度量无法完全捕捉到人工评估所评估的质量方面。
May, 2023