语义重叠归纳任务的 LLM 性能评估

Feb, 2024

语义重叠归纳任务的 LLM 性能评估

Benchmarking LLMs on the Semantic Overlap Summarization Task

John Salvador, Naman Bansal, Mousumi Akter, Souvika Sarkar, Anupam Das...

TL;DR应用 TELeR 分类法和 15 种流行的大型语言模型（LLMs），对语义重叠摘要任务进行全面评估，评估它们在从多个备选叙述中总结重叠信息的能力，通过使用 ROUGE、BERTscore 和 SEM-F1 等已建立的指标对两个不同数据集进行评估，并分析各种 LLMs 在捕捉重叠信息方面的优势和局限性。

Abstract

semantic overlap summarization (SOS) is a constrained multi-document summarization task, where the constraint is to capture the common/overlapping information between two alternative narratives. While recent advancements in Large Language Models (LLMs) have achieved superior performanc

semantic overlap summarization constrained multi-document summarization large language models (llms)benchmarking study teler taxonomy

发现论文，激发创造

文本摘要质量评估方法的比较研究

基于大型语言模型的方法用于评估文本摘要，与人工评估相比，其结果接近，并且比常用的自动度量方法更一致。因此，我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架，具有广泛的关注度。

Jun, 2024

多叙事语义重叠任务：评估和基准测试

本文介绍了一个重要但相对未被探索的 NLP 任务，称为多叙事语义重叠（MNSO），它涉及生成多个替代叙事的语义重叠。我们使用在网上爬取的 2,925 个叙事对创建了一个基准数据集，并通过人工注释创建了 411 个不同的地面真实语义重叠，提出了一个新的精确度 - 召回率样式的评估指标 SEM-F1。实验结果表明，该指标与人类判断的相关性更高，而且相较于 ROUGE 指标，具有更高的人际一致性。

Jan, 2022

一次创意主导的全部：用于观点摘要评估的 LLMs

我们使用 SUMMEVAL-OP 数据集评估意见摘要，使用大型语言模型作为参考自由指标，发现 Op-I-Prompt 是评估意见摘要的良好替代方法，与人类判断的平均斯皮尔曼相关性达到 0.70，超过了以前的所有方法。这是我们在意见摘要领域首次探索使用开源和闭源模型的大型语言模型作为评估器。

Feb, 2024

大型语言模型在代码摘要上的性能分析

大语言模型在代码摘要任务方面，特别是代码生成和摘要具有很高的性能。本文发现，这些模型在每个示例上的性能往往取决于代码和对应参考自然语言描述之间的（子词）标记重叠量。此标记重叠主要出现在代码的函数名称中，并通过移除函数名称与移除代码结构来比较这些模型的相对性能。另外，使用 BLEU 和 BERTScore 等多个评估指标对此问题的洞见非常有限，因为这些指标高度相关。

Apr, 2024

TriSum: 从大型语言模型中学习结构化理由的文摘能力

通过 TriSum 框架，我们将大型语言模型的文本摘要能力提炼为一个紧凑且本地化的模型，以应对资源有限和注重隐私的环境。通过对各项任务进行演化式学习，我们的方法在各个评估基准上提升了本地化模型的性能，并提供了摘要的合理解释。

Mar, 2024

零样本对话摘要评估与小型大型语言模型

大型语言模型在会话摘要方面的能力有待探索，本研究评估了使用大约 100 亿个参数的语言模型在会话摘要上的性能，展示了其对各种提示的表现，并且证明了模型生成的摘要取决于指令，LLMs 在不同指令下的性能差异，如果提示选择不当，有时会导致 ROUGE 分数的显著下降，还通过人工评估对模型进行了评估，并讨论了模型在会话摘要方面的限制。

Nov, 2023

新闻摘要的大型语言模型基准测试

通过对十种不同的预训练方法、提示和模型规模的大型语言模型进行人类评估，我们发现指导调整而不是模型规模是 LLM 的零样本摘要能力的关键，并通过从自由职业作家收集的高质量摘要进行人类评估，得出 LLM 摘要被认为与人类撰写的摘要相媲美的结论。

Jan, 2023

利用大型语言模型进行元素感知式摘要：专家对齐评估和思路链方法

研究发现 CNN / DailyMail 和 BBC XSum 数据集的参考摘要存在噪音，因为这些摘要主要存在于事实幻觉和信息冗余方面。为了解决这个问题，他们提出了 “Summary Chain-of-Thought（SumCoT）” 技术，通过逐步摘要的方式生成细粒度的摘要。利用新的测试集，研究人员观察到 LLM 具有惊人的零 - shot 摘要能力，该技术旨在使他们将更细粒度的细节集成到与人类写作方式相关的最终摘要中。实验结果表明，该方法在两个数据集上的 ROUGE-L 优于现有技术。

May, 2023

使用大型语言模型的端到端语音摘要

提出了一种利用 Q-Former 作为音频 - 文本模态连接器、采用大型语言模型从语音特征直接生成文本摘要的端到端 SSum 模型，并采用多阶段训练方法来提高模型处理长篇语音的能力，最终在 How-2 数据集上取得了具有竞争力的性能。

Jul, 2024

利用大型语言模型作为参考学习自动摘要

本文提出了一种新的学习范式，考虑到 LLMS 是常用摘要数据集中的参考标准，用对比学习和 LLM 作为摘要质量评估器进行摘要训练方法。实验证明，用 GPTScore 和 GPTRank 两种 LLM 计分方式训练出来的较小的摘要模型，其性能可以与参考的 LLM 相媲美，通过访问 LLMS 它只需要很小的预算。

May, 2023