比较摘要模型需要多少注释？

Feb, 2024

How Much Annotation is Needed to Compare Summarization Models?

Chantal Shaib, Joe Barrow, Alexa F. Siu, Byron C. Wallace, Ani Nenkova

TL;DR在这项研究中，我们通过实证研究了在新闻摘要领域选择最佳性能的模型所需的测试样本大小，发现只需要少于 100 个样本即可收敛，并且人类偏好数据可以在各种下游摘要任务中量化自动评分的能力。

Abstract

Modern instruction-tuned models have become highly capable in text generation tasks such as summarization, and are expected to be released

instruction-tuned models text generation summarization test sample size human preference data

发现论文，激发创造

新闻摘要的大型语言模型基准测试

通过对十种不同的预训练方法、提示和模型规模的大型语言模型进行人类评估，我们发现指导调整而不是模型规模是 LLM 的零样本摘要能力的关键，并通过从自由职业作家收集的高质量摘要进行人类评估，得出 LLM 摘要被认为与人类撰写的摘要相媲美的结论。

Jan, 2023

SummEval: 重评摘要评估

本文针对现有的缺陷和问题，提出了五个维度的解决方案，从而能够扩大文本摘要的评估标准，并且进一步研究出与人类判断更加相关的评价指标。

Jul, 2020

从人类反馈中学习摘要

通过使用强化学习优化模型的奖励函数来预测人类偏好总结，本文展示了可显著提高总结质量的可能性，并在 TL;DR 数据集上取得了显著的优势。

Sep, 2020

评估测量经常在低分数范围内出现分歧：重新审视摘要评估测量指标

本文讨论了人工评价与自动评价在文本摘要中的应用，并提出了评价指标间的差异和相关性。研究发现评价指标的互相协议性取决于摘要的得分范围、摘要易于摘要的程度、摘要抽象程度和覆盖范围等方面。

Nov, 2020

文本摘要质量评估方法的比较研究

基于大型语言模型的方法用于评估文本摘要，与人工评估相比，其结果接近，并且比常用的自动度量方法更一致。因此，我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架，具有广泛的关注度。

Jun, 2024

如何评估摘要生成器：手动语言质量评估的研究设计和统计分析

通过对最近总结系统论文的调查，我们发现，在如何进行这样的评估研究方面存在很少的一致性。我们进行了两个评估实验来比较 Likert 类型和排名注释，并展示了评估方法的最佳选择可能因一个方面与另一个方面不同。使用我们的评估实验，我们展示了注释者的总数对研究功率有很强的影响，而目前的统计分析方法在把一个注释者判定多个摘要时会夸大 Ⅰ 类错误率高达 8 倍。此外，我们强调，为了进行系统比较，当前的实践是在一个固定的研究预算中引出多个判断，这会导致注释功率和可靠性较弱。

Jan, 2021

USB：跨任务和领域的统一摘要基准

本研究提出一个多维理解摘要的基准测试，并在其上比较了多种模型的性能，发现中等规模的微调模型在多个任务上始终优于更大的几次提示语言模型。同时发现，对于某些任务，训练数据的数量比其来源领域更重要，而对于其他任务，尽管数据量有限，但特定领域的数据更为有益。

May, 2023

基于大型语言模型的可控指令摘要生成与评估能力基准测试

语言模型在标准的概括基准测试中已经取得了强大的性能，但在更复杂的概括任务设置上的表现却鲜少被研究。本研究基于指令可控的文本概括对语言模型进行评估，并使用多种评估协议和多个语言模型进行了自动评估。研究结果表明，指令可控的文本概括对于语言模型仍然是一个具有挑战性的任务，存在各种错误和性能差异。我们公开提供了我们的评估基准 IntruSum，以促进未来的相关研究。

Nov, 2023

通过语义相似性学习能更好地实现抽象摘要化

本文探讨基于预训练语言模型的摘要生成模型。通过与基准数据集 CNN/DM 的参考摘要的人工评估比较，发现相对于参考摘要而言，由最新的语言模型 BART 生成更高分的摘要。我们对 CNN/DM 数据集内在特性、预训练语言模型的进展及其对训练数据的泛化能力进行了分析，最终提出了对于提高抽象化摘要生成的学习方法的思考。

Feb, 2020

观点摘要的小样本学习

本文介绍了一种学习无监督条款，在生成模型中引入少量样本来捕获其必要属性的方法，用于生成商品评论等主观性文本的摘要，该方法比以往的提取和抽象方法更有效。

Apr, 2020