本文探讨了自动文摘评估指标能够准确复制人类总结质量判断的可靠性,并提出了对现有评估体系的变更,以改善两个方面的偏差,这两个方面分别是评估指标使用的方法与实际评估系统的方式不一致,以及通过只计算小得分差距的系统之间的相关性来计算相关性。通过此研究,提出了收集更多高质量的人类判断和在系统得分差距小的情况下改进自动评估指标的必要性。
Apr, 2022
本文讨论了人工评价与自动评价在文本摘要中的应用,并提出了评价指标间的差异和相关性。研究发现评价指标的互相协议性取决于摘要的得分范围、摘要易于摘要的程度、摘要抽象程度和覆盖范围等方面。
Nov, 2020
本文重新评估了文本摘要的评估方法,使用最新的数据集和系统输出来评估评估指标的可靠性,并发现旧数据集上对评估指标的结论不一定适用于现代数据集和系统。
Oct, 2020
本文探讨了现有自动摘要的人工评估协议和基准的不足,提出了基于精细语义单元的修改版自动摘要重要性协议(ACU)和大型人工评估数据集(RoSE),并与其他人工评估协议进行了比较,证明了新的基准标注有助于更为稳定和显著的自动度量结果,可用于调整大型语言模型。
Dec, 2022
本篇论文专门研究了用于科技文章摘要的评估度量,对 ROUGE 的效果进行广泛分析,发现 ROUGE 不太可靠,提出了 SERA 作为科技文章摘要评估的一种有效指标。
Apr, 2016
本文针对现有的缺陷和问题,提出了五个维度的解决方案,从而能够扩大文本摘要的评估标准,并且进一步研究出与人类判断更加相关的评价指标。
Jul, 2020
通过使用大型语言模型 (LLMs) 自动 AI 方法生成的摘要进行性能测量和校准来检测其是否与人工生成的摘要足够相似。
Apr, 2024
该研究提出了一种由多个评注者对原始文档进行手动评估的新方法,称为基于高亮参考的摘要评估(HighRES),可用于评估多个系统的摘要内容,并说明其相对于其他评估方法具有更好的评注者间一致性,并能够突显其他评估方法忽略的系统差异。
Jun, 2019
基于大型语言模型的方法用于评估文本摘要,与人工评估相比,其结果接近,并且比常用的自动度量方法更一致。因此,我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架,具有广泛的关注度。
Jun, 2024
使用强化学习的抽象化概括方法已经被提出来克服传统极大似然估计的限制,提出了一些使用问题回答作为替代评价指标的模型,并在人工和自动评价指标上取得了较大的提升。
Sep, 2019