评估测量经常在低分数范围内出现分歧:重新审视摘要评估测量指标
为了改进文献综述的多文件摘要 (MDS),引入包含人工评估的摘要质量特征和成对偏好的数据集,以支持开发更好的自动评估方法,分析了自动摘要评估度量与生成的摘要词汇特征、其他自动度量以及人工评估摘要质量方面的相关性。发现自动化度量无法完全捕捉到人工评估所评估的质量方面。
May, 2023
本文探讨了自动文摘评估指标能够准确复制人类总结质量判断的可靠性,并提出了对现有评估体系的变更,以改善两个方面的偏差,这两个方面分别是评估指标使用的方法与实际评估系统的方式不一致,以及通过只计算小得分差距的系统之间的相关性来计算相关性。通过此研究,提出了收集更多高质量的人类判断和在系统得分差距小的情况下改进自动评估指标的必要性。
Apr, 2022
基于大型语言模型的方法用于评估文本摘要,与人工评估相比,其结果接近,并且比常用的自动度量方法更一致。因此,我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架,具有广泛的关注度。
Jun, 2024
面对大量的产品评论,我们提出了一种自动度量标准来测试摘要表达的观点普遍性,基于统计与摘要中每个陈述一致的评论数量,同时贬低琐碎或冗余的陈述。通过使用所得到的观点普遍性度量标准,我们展示了人工撰写的摘要仅比随机选取的源评论摘录稍微具有更好的观点普遍性,并且之前的抽取式和抽象式无监督观点摘要方法比人工表现更差。我们展示了通过贪婪构建抽取摘要可以改进,达到了两倍于人工的观点普遍性。最后,我们展示了通过简化源评论的预处理可将现有的抽象观点摘要系统的观点普遍性提高到人工表现水平。
Jul, 2023
本研究针对生物医学领域的问答摘要任务,从四个不同角度进行了人工评估,用以评估现有的自动化摘要评估指标和系统的可行性,并公布了人工注释数据集,以促进生物医学领域的摘要评估方法的研究。
Mar, 2023
在这项研究中,我们通过实证研究了在新闻摘要领域选择最佳性能的模型所需的测试样本大小,发现只需要少于 100 个样本即可收敛,并且人类偏好数据可以在各种下游摘要任务中量化自动评分的能力。
Feb, 2024
观点总结与其他类型的总结任务有所不同,因为其独特关注于方面和情感。本文介绍了 OpinSummEval,它是一个包含人工评价和 14 个观点总结模型输出的数据集。我们进一步探讨了 24 个自动评估指标与人工评分之间在四个维度上的相关性。结果表明,基于神经网络的指标通常优于非神经网络的指标。然而,即使是构建在强大的模型基础之上,如 BART 和 GPT-3/3.5,也不能在所有维度上一致地与人工评分相关,凸显了观点总结自动评估方法的进步需求。代码和数据可在此 URL 公开获取。
Oct, 2023