观点总结与其他类型的总结任务有所不同,因为其独特关注于方面和情感。本文介绍了 OpinSummEval,它是一个包含人工评价和 14 个观点总结模型输出的数据集。我们进一步探讨了 24 个自动评估指标与人工评分之间在四个维度上的相关性。结果表明,基于神经网络的指标通常优于非神经网络的指标。然而,即使是构建在强大的模型基础之上,如 BART 和 GPT-3/3.5,也不能在所有维度上一致地与人工评分相关,凸显了观点总结自动评估方法的进步需求。代码和数据可在此 URL 公开获取。
Oct, 2023
本文重新评估了文本摘要的评估方法,使用最新的数据集和系统输出来评估评估指标的可靠性,并发现旧数据集上对评估指标的结论不一定适用于现代数据集和系统。
Oct, 2020
评估标准数据集、评估指标、模型三方面存在的问题,提出了数据集自动采集、评估不足以反映人类判断、模型样本不足多样化等三个主要问题,导致长文本摘要进展不一。
Aug, 2019
基于大型语言模型的方法用于评估文本摘要,与人工评估相比,其结果接近,并且比常用的自动度量方法更一致。因此,我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架,具有广泛的关注度。
Jun, 2024
本文讨论了人工评价与自动评价在文本摘要中的应用,并提出了评价指标间的差异和相关性。研究发现评价指标的互相协议性取决于摘要的得分范围、摘要易于摘要的程度、摘要抽象程度和覆盖范围等方面。
Nov, 2020
提出了一种综合的衡量文本摘要质量的度量标准 SummScore,使用 CrossEncoder 作为基础模型,并采用四个精细化的子模型来分别衡量连贯性、一致性、流畅度和相关性,并在极度受限的标注数据上进行半监督多轮训练,显著优于现有的评估指标。
Jul, 2022
提出了一种新的自动文本摘要评估系统,该系统可以基于事实一致性、综合性和压缩率来测量任何文本摘要模型的质量,该评估系统是第一个基于真实性、信息覆盖和压缩率来衡量摘要模型总体质量的系统。
Apr, 2022
本文探讨了现有自动摘要的人工评估协议和基准的不足,提出了基于精细语义单元的修改版自动摘要重要性协议(ACU)和大型人工评估数据集(RoSE),并与其他人工评估协议进行了比较,证明了新的基准标注有助于更为稳定和显著的自动度量结果,可用于调整大型语言模型。
Dec, 2022
本综述论文系统性地评估了长文档自动摘要各主要组成部分的研究进展,包括基准数据集、摘要模型和评估方法,并提出未来工作的方向。
本研究针对生物医学领域的问答摘要任务,从四个不同角度进行了人工评估,用以评估现有的自动化摘要评估指标和系统的可行性,并公布了人工注释数据集,以促进生物医学领域的摘要评估方法的研究。
Mar, 2023