填空题:无需人工评估的文档摘要质量评估
本篇论文提出了一种新型无需参考文献的摘要评价指标,利用预训练语言模型来评估文档和其摘要之间共享的信息内容,此指标是之前提出的摘要质量评分方法 Shannon Game 的现代演化版本,并通过实验证明,基于 Transformer 的语言模型得到的指标与人类判断摘要质量的相关性达到了最先进的水平,可用于衡量摘要的连贯性、相关性、一致性和流畅性。
Mar, 2021
基于大型语言模型的方法用于评估文本摘要,与人工评估相比,其结果接近,并且比常用的自动度量方法更一致。因此,我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架,具有广泛的关注度。
Jun, 2024
本文探讨基于预训练语言模型的摘要生成模型。通过与基准数据集 CNN/DM 的参考摘要的人工评估比较,发现相对于参考摘要而言,由最新的语言模型 BART 生成更高分的摘要。我们对 CNN/DM 数据集内在特性、预训练语言模型的进展及其对训练数据的泛化能力进行了分析,最终提出了对于提高抽象化摘要生成的学习方法的思考。
Feb, 2020
本文提出使用控制变量方法,结合自动评价指标与人工评价来获取代价较低的无偏估计,在对文摘和开放式问题回答进行评估时,可以实现 7-13% 的代价降低,同时强调了自动评价指标和提示方式是进一步降低代价的关键瓶颈。
Jul, 2018
该研究回顾了 BLEU 和 ROUGE 两种不足,并提出了衡量文本摘要的好指标需要具备的标准以及使用最近的基于 Transformers 的语言模型来评估参考摘要与假设摘要的具体方法。
Sep, 2019
本文提出了一种称为 QuestEval 的新方法,通过问题回答模型评估摘要是否包含源文档中的所有相关信息,从而在一致性、连贯性、流畅性和相关性等四个评估维度上,显著改善了与人类判断的相关性,而不需要任何先验参考。
Mar, 2021
本文通过对长文档的人工精细注释对抽象大纲概述系统进行了评估,并显示了 ROUGE 在长文档摘要内容相关性评估方面的优越性,并提出了发展事实一致性度量的方向。最后,我们发布了我们注释的长文档数据集,希望能为更广泛的概述设置开发度量做出贡献。
Oct, 2022
使用强化学习的抽象化概括方法已经被提出来克服传统极大似然估计的限制,提出了一些使用问题回答作为替代评价指标的模型,并在人工和自动评价指标上取得了较大的提升。
Sep, 2019