UniSumEval：迈向统一的、细粒度的、多维度的摘要评估

Sep, 2024

UniSumEval：迈向统一的、细粒度的、多维度的摘要评估

UniSumEval: Towards Unified, Fine-Grained, Multi-Dimensional Summarization Evaluation for LLMs

Yuho Lee, Taewon Yun, Jason Cai, Hang Su, Hwanjun Song

TL;DR本研究解决了现有摘要质量评估基准在输入场景多样性、维度定义狭窄以及主观注释不精准等方面的不足。通过创建UniSumEval基准，本文提出了一种新的方法，拓宽了输入上下文范围并提供了细粒度、多维度的注释，显著提升了对最新语言模型摘要性能的评估效果。本研究的成果将为未来的摘要评估提供更全面的参考。

Abstract

Existing Benchmarks for Summarization quality Evaluation often lack diverse input scenarios, focus on narrowly defined dimensions (e.g., f

发现论文，激发创造

SummEval: 重评摘要评估

本文针对现有的缺陷和问题，提出了五个维度的解决方案，从而能够扩大文本摘要的评估标准，并且进一步研究出与人类判断更加相关的评价指标。

Jul, 2020

基于交叉编码器的综合摘要质量评估指标SummScore

提出了一种综合的衡量文本摘要质量的度量标准SummScore，使用CrossEncoder作为基础模型，并采用四个精细化的子模型来分别衡量连贯性、一致性、流畅度和相关性，并在极度受限的标注数据上进行半监督多轮训练，显著优于现有的评估指标。

Jul, 2022

UniSumm: 统一的Few-shot摘要生成：多任务预训练和前缀微调

提出一种称为UniSumm的统一的few-shot summarization模型来共同处理多个任务，并可前缀调整以适应任何few-shot summarization数据集，并宣传了一个新的基准SummZoo，其由8个不同的生成任务组成，结果表明，UniSumm超越了强基准系统，并在SummZoo的所有任务中都通过自动和人工评估实现了更好的效果。

Nov, 2022

重新审视黄金标准：用稳健的人类评估来立足摘要评估

本文探讨了现有自动摘要的人工评估协议和基准的不足，提出了基于精细语义单元的修改版自动摘要重要性协议（ACU）和大型人工评估数据集（RoSE），并与其他人工评估协议进行了比较，证明了新的基准标注有助于更为稳定和显著的自动度量结果，可用于调整大型语言模型。

Dec, 2022

新闻摘要的大型语言模型基准测试

通过对十种不同的预训练方法、提示和模型规模的大型语言模型进行人类评估，我们发现指导调整而不是模型规模是LLM的零样本摘要能力的关键，并通过从自由职业作家收集的高质量摘要进行人类评估，得出 LLM摘要被认为与人类撰写的摘要相媲美的结论。

Jan, 2023

大型语言模型是否适合作为抽象概括的评估器？

本文旨在探讨使用 LLMS（例如“gpt-3.5-turbo”）作为自动评估器来评估摘要的性能，并比较了不同的评估方法和提示格式对其评估能力的影响。作者建议哪些提示格式可以提高LLM的性能，并讨论了LLM的评估能力随摘要质量和评估维度的变化。

May, 2023

USB：跨任务和领域的统一摘要基准

本研究提出一个多维理解摘要的基准测试，并在其上比较了多种模型的性能，发现中等规模的微调模型在多个任务上始终优于更大的几次提示语言模型。同时发现，对于某些任务，训练数据的数量比其来源领域更重要，而对于其他任务，尽管数据量有限，但特定领域的数据更为有益。

May, 2023

BooookScore：基于LLMs时代的图书摘要系统性研究

通过两种工作流程 (层级合并、递增更新) 实现基于 LLM 的书籍摘要器的连贯性研究，发现 LLM 会出现八种常见的连贯性错误，并提出了一个自动评估指标 BooookScore，与人工标注结果一致，可用于系统评估其他关键参数的影响，同时节省了人工评估成本。

Oct, 2023

基于大型语言模型的可控指令摘要生成与评估能力基准测试

语言模型在标准的概括基准测试中已经取得了强大的性能，但在更复杂的概括任务设置上的表现却鲜少被研究。本研究基于指令可控的文本概括对语言模型进行评估，并使用多种评估协议和多个语言模型进行了自动评估。研究结果表明，指令可控的文本概括对于语言模型仍然是一个具有挑战性的任务，存在各种错误和性能差异。我们公开提供了我们的评估基准IntruSum，以促进未来的相关研究。

Nov, 2023

FineSurE: 利用LLMs进行细粒度总结评估

利用大型语言模型 FineSurE，我们针对文本摘要任务提出了一种细粒度评估方法，该方法在完成度、简洁度和忠实度等多个维度上对摘要性能进行评估，并在各种开源和专有的大型语言模型作为 FineSurE 的基础上进行了广泛的基准测试，改进了摘要性能。

Jul, 2024