重新审视黄金标准：用稳健的人类评估来立足摘要评估

Dec, 2022

重新审视黄金标准：用稳健的人类评估来立足摘要评估

Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation

Yixin Liu, Alexander R. Fabbri, Pengfei Liu, Yilun Zhao, Linyong Nan...

TL;DR本文探讨了现有自动摘要的人工评估协议和基准的不足，提出了基于精细语义单元的修改版自动摘要重要性协议（ACU）和大型人工评估数据集（RoSE），并与其他人工评估协议进行了比较，证明了新的基准标注有助于更为稳定和显著的自动度量结果，可用于调整大型语言模型。

Abstract

human evaluation is the foundation upon which the evaluation of both summarization systems and automatic metrics rests. However, existing

human evaluation summarization systems automatic metrics evaluation protocols robust summarization evaluation

发现论文，激发创造

文本摘要质量评估方法的比较研究

基于大型语言模型的方法用于评估文本摘要，与人工评估相比，其结果接近，并且比常用的自动度量方法更一致。因此，我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架，具有广泛的关注度。

Jun, 2024

SummEval: 重评摘要评估

本文针对现有的缺陷和问题，提出了五个维度的解决方案，从而能够扩大文本摘要的评估标准，并且进一步研究出与人类判断更加相关的评价指标。

Jul, 2020

文本摘要中评价的重评估

本文重新评估了文本摘要的评估方法，使用最新的数据集和系统输出来评估评估指标的可靠性，并发现旧数据集上对评估指标的结论不一定适用于现代数据集和系统。

Oct, 2020

HighRES：基于重点提取的无参考自动文摘评价

该研究提出了一种由多个评注者对原始文档进行手动评估的新方法，称为基于高亮参考的摘要评估（HighRES），可用于评估多个系统的摘要内容，并说明其相对于其他评估方法具有更好的评注者间一致性，并能够突显其他评估方法忽略的系统差异。

Jun, 2019

通过语义相似性学习能更好地实现抽象摘要化

本文探讨基于预训练语言模型的摘要生成模型。通过与基准数据集 CNN/DM 的参考摘要的人工评估比较，发现相对于参考摘要而言，由最新的语言模型 BART 生成更高分的摘要。我们对 CNN/DM 数据集内在特性、预训练语言模型的进展及其对训练数据的泛化能力进行了分析，最终提出了对于提高抽象化摘要生成的学习方法的思考。

Feb, 2020

寻找平衡自动化程度的摘要评估方法

本文提出了一种半自动到全自动的摘要评估方法，包括使用自然语言推理模型替代手动评价 Summary Content Units（SCUs）在系统摘要中的存在，并使用语义角色标注模型自动提取 Semantic Triplet Units（STUs）来替代 SCUs，同时提出了 Lite2.xPyramid 作为中间度量方法，其使用简单的回归器来预测 STUs 如何模拟 SCUs，并保留更难以模拟的 SCUs。其中 Lite2Pyramid 在摘要级别的相关性方面表现最佳，Lite3Pyramid 在自动评估方面效果更好，Lite2.xPyramid 则为自动评估和手动评估提供了平衡。

Sep, 2021

使用重采样方法进行摘要评估度量的统计分析

本文介绍了利用自主重采样方法来计算置信区间和运行假设检验的方法，并对几个自动评估度量进行了分析，发现自动评估度量的可靠性存在高度不确定性

Mar, 2021

重新审视自动摘要评估指标的系统层面相关性

本文探讨了自动文摘评估指标能够准确复制人类总结质量判断的可靠性，并提出了对现有评估体系的变更，以改善两个方面的偏差，这两个方面分别是评估指标使用的方法与实际评估系统的方式不一致，以及通过只计算小得分差距的系统之间的相关性来计算相关性。通过此研究，提出了收集更多高质量的人类判断和在系统得分差距小的情况下改进自动评估指标的必要性。

Apr, 2022

OpinSummEval: 重新审视舆情摘要自动评估

观点总结与其他类型的总结任务有所不同，因为其独特关注于方面和情感。本文介绍了 OpinSummEval，它是一个包含人工评价和 14 个观点总结模型输出的数据集。我们进一步探讨了 24 个自动评估指标与人工评分之间在四个维度上的相关性。结果表明，基于神经网络的指标通常优于非神经网络的指标。然而，即使是构建在强大的模型基础之上，如 BART 和 GPT-3/3.5，也不能在所有维度上一致地与人工评分相关，凸显了观点总结自动评估方法的进步需求。代码和数据可在此 URL 公开获取。

Oct, 2023

强大长文摘要化还有多远？

本文通过对长文档的人工精细注释对抽象大纲概述系统进行了评估，并显示了 ROUGE 在长文档摘要内容相关性评估方面的优越性，并提出了发展事实一致性度量的方向。最后，我们发布了我们注释的长文档数据集，希望能为更广泛的概述设置开发度量做出贡献。

Oct, 2022