FineSurE: 利用 LLMs 进行细粒度总结评估

ACLJul, 2024

FineSurE: 利用 LLMs 进行细粒度总结评估

FineSurE: Fine-grained Summarization Evaluation using LLMs

Hwanjun Song, Hang Su, Igor Shalyminov, Jason Cai, Saab Mansour

TL;DR利用大型语言模型 FineSurE，我们针对文本摘要任务提出了一种细粒度评估方法，该方法在完成度、简洁度和忠实度等多个维度上对摘要性能进行评估，并在各种开源和专有的大型语言模型作为 FineSurE 的基础上进行了广泛的基准测试，改进了摘要性能。

Abstract

automated evaluation is crucial for streamlining text summarization benchmarking and model development, given the costly and time-consumin

automated evaluation text summarization benchmarking llms finesure

发现论文，激发创造

文本摘要质量评估方法的比较研究

基于大型语言模型的方法用于评估文本摘要，与人工评估相比，其结果接近，并且比常用的自动度量方法更一致。因此，我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架，具有广泛的关注度。

Jun, 2024

科学摘要评估的反思：在面向因素的基准上建立可解释指标

本研究分析和评估了预训练的大型语言模型在科学文献摘要中的应用，并介绍了 Facet-aware Metric 评估方法以及 Facet-based 科学摘要数据集的构建。研究表明，Facet-aware Metric 提供了一种更加合理的科学摘要评估方法，而在科学领域，经过精细调整的较小模型可以与大型语言模型竞争，但大型语言模型在学习科学领域中的上下文信息方面存在局限性，需要进一步改进。

Feb, 2024

自动诊断筛查总结的大规模语言模型微调

改进发展中国家中的心理健康支持是迫切的需求，其中一个潜在解决方案是开发可扩展的自动化系统进行诊断筛查，可以帮助减轻心理健康专业人员的负担。本研究评估了几种最先进的大型语言模型（LLMs），在我们的定制数据集上进行了简明摘要生成的评估。我们使用已建立的 ROUGE 评估指标和人工评估员的输入，对四种不同的摘要生成模型进行了严格评估。结果显示，我们表现最好的经过细化调整的模型优于现有模型，ROUGE-1 和 ROUGE-L 分别达到 0.810 和 0.764。此外，我们还评估了该经过细化调整的模型在公开可用的 D4 数据集上的泛化能力，结果令人鼓舞，表明其潜在的适用性超出了我们的定制数据集。

Mar, 2024

基于精细化自然语言推理的多样化摘要任务忠实性评估

我们提出了一种新的方法 InFusE，通过使用可变的前提大小并将摘要句子简化为更短的假设，分析了基于自然语言推理的摘要可信度评估。通过实验证明，在不同的摘要任务中，InFusE 取得了卓越的性能。

Feb, 2024

大型语言模型：多样的角色扮演者用于摘要评估

本文提出了一种新的评估框架，基于 LLMs，并通过比较生成文本和参考文本来提供全面的评估。该模型基于角色扮演者提示机制模拟生成文本的客观和主观维度，并引入了上下文提示机制以生成基于输入上下文的动态角色扮演者配置文件，并根据批处理提示设计了多角色扮演者提示技术，以将多个评估结果集成到评估结果中。在自动摘要任务的两个真实数据集上进行的实验结果表明，该模型非常具有竞争力，且与人类注释者具有非常高的一致性。

Mar, 2023

新闻摘要的大型语言模型基准测试

通过对十种不同的预训练方法、提示和模型规模的大型语言模型进行人类评估，我们发现指导调整而不是模型规模是 LLM 的零样本摘要能力的关键，并通过从自由职业作家收集的高质量摘要进行人类评估，得出 LLM 摘要被认为与人类撰写的摘要相媲美的结论。

Jan, 2023

通过 LLMs 简化长文档摘要评估

该研究提出了一种新方法，即从长文档中提取关键句子，然后通过提示大型语言模型来评估摘要，以解决计算成本高、长文档中的重要信息往往被忽视的问题，研究结果显示该方法不仅显著降低了评估成本，而且与人工评估的相关性更高，此外，我们还提供了关于最佳文档长度和句子提取方法的实用建议，为基于大型语言模型的文本生成评估的成本效益更高且更准确的方法的发展做出了贡献。

Sep, 2023

大型语言模型是否适合作为抽象概括的评估器？

本文旨在探讨使用 LLMS（例如 “gpt-3.5-turbo”）作为自动评估器来评估摘要的性能，并比较了不同的评估方法和提示格式对其评估能力的影响。作者建议哪些提示格式可以提高 LLM 的性能，并讨论了 LLM 的评估能力随摘要质量和评估维度的变化。

May, 2023

FRACTAL：基于文本标签的细粒度评分

我们介绍了一种将响应级别标签细分为句子级别（伪）标签的方法，该方法利用多实例学习（MIL）和学习标签比例（LLP）技术以及先前信息训练专用模型进行句子级别评分，并利用模型预测对训练集进行伪标签，以进一步提高性能。我们在六个数据集和四个任务上进行了广泛的评估，结果表明在大多数任务中与多个基准方法相比，我们的方法性能有所提高。这项工作是第一个将响应级别反馈应用到句子级别评分技术，并利用句子级别先前信息进行全面评估的工作，同时进行了端到端微调评估，表明性能与基于精细人工标注标签训练的模型相当。

Apr, 2024

提升指令遵循评估能力的研究：以摘要为例的案例研究

通过对大型语言模型的指令遵循能力进行度量的多种度量方法的元评估，分析评估方法与人工判断之间的一致性，并提出基于 LLM 的无参考评估方法，改进了传统基准，并达到了要求高质量摘要的昂贵基于参考文献的指标的效果。

Oct, 2023