重温科技论文摘要评估
本文探讨了借助 Word Embedding 计算摘要中的语义相似度来代替传统的基于词汇重叠度的 ROUGE 自动评估方法存在的偏差,实验结果显示该方法比传统方法更能准确地与人工评估结果相符。
Aug, 2015
介绍 ROUGE2.0 对机器生成的摘要的自动评估方法,包括 ROUGE-N + 同义词、ROUGE-Topic、ROUGE-Topic + 同义词、ROUGE-TopicUniq 和 ROUGE-TopicUniq + 同义词等几种改进的 ROUGE 指标,用于改善原有指标在捕捉同义概念和内容覆盖方面的局限性。
Mar, 2018
使用强化学习的抽象化概括方法已经被提出来克服传统极大似然估计的限制,提出了一些使用问题回答作为替代评价指标的模型,并在人工和自动评价指标上取得了较大的提升。
Sep, 2019
本文探讨基于预训练语言模型的摘要生成模型。通过与基准数据集 CNN/DM 的参考摘要的人工评估比较,发现相对于参考摘要而言,由最新的语言模型 BART 生成更高分的摘要。我们对 CNN/DM 数据集内在特性、预训练语言模型的进展及其对训练数据的泛化能力进行了分析,最终提出了对于提高抽象化摘要生成的学习方法的思考。
Feb, 2020
本文提出了一种衡量文本摘要的方法,即参考文献和文档感知语义得分(RDASS),用于韩语这种将各种语素组合成表达多种含义的词汇的语言。通过我们的评估指标,可以提高文本概括的人类判断相关性。研究结果表明,我们的评估指标与人类判断的相关性显著高于 ROUGE 得分。
Apr, 2020
本文提出了一种称为 QuestEval 的新方法,通过问题回答模型评估摘要是否包含源文档中的所有相关信息,从而在一致性、连贯性、流畅性和相关性等四个评估维度上,显著改善了与人类判断的相关性,而不需要任何先验参考。
Mar, 2021
我们提出了一种关键词取向的评估指标 ——ROUGE-K,该指标通过定量回答 “摘要中是否包含关键词” 这个问题来评估自动摘要模型是否包含有信息性的单词。通过这种关键词感知的度量方法,我们令人惊讶地发现,当前的一个强基准模型在摘要中常常会遗漏重要信息。我们的分析揭示了人工注释者确实认为包含更多关键词的摘要与源文档更相关。最后,为了增加关键词的包含,我们提出了四种将词重要性融入基于变换器的模型的方法,并通过实验证明这样做可以在保持总体质量的同时引导模型包含更多关键词。
Mar, 2024
基于大型语言模型的方法用于评估文本摘要,与人工评估相比,其结果接近,并且比常用的自动度量方法更一致。因此,我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架,具有广泛的关注度。
Jun, 2024
本文探讨了自动文摘评估指标能够准确复制人类总结质量判断的可靠性,并提出了对现有评估体系的变更,以改善两个方面的偏差,这两个方面分别是评估指标使用的方法与实际评估系统的方式不一致,以及通过只计算小得分差距的系统之间的相关性来计算相关性。通过此研究,提出了收集更多高质量的人类判断和在系统得分差距小的情况下改进自动评估指标的必要性。
Apr, 2022