LaMSUM: 一种使用 LLMs 的用户生成内容抽取式摘要的新框架

Jun, 2024

LaMSUM: 一种使用 LLMs 的用户生成内容抽取式摘要的新框架

LaMSUM: A Novel Framework for Extractive Summarization of User Generated Content using LLMs

Garima Chhikara, Anurag Sharma, V. Gurucharan, Kripabandhu Ghosh, Abhijnan Chakraborty

TL;DR这项研究通过利用投票算法，提出了一种新的框架 LaMSUM，通过大型语言模型生成用户生成的文本的摘要，结果显示 LaMSUM 优于现有的提取式摘要方法，同时试图解释语言模型生成的摘要产生的原因。

Abstract

large language models (LLMs) have demonstrated impressive performance across a wide range of NLP tasks, including summarization. Inherently LLMs produce abstractive summaries, and the task of achieving

large language models summarization extractive summaries lamsum user-generated text

发现论文，激发创造

文本摘要质量评估方法的比较研究

基于大型语言模型的方法用于评估文本摘要，与人工评估相比，其结果接近，并且比常用的自动度量方法更一致。因此，我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架，具有广泛的关注度。

Jun, 2024

总结（几乎）已死

大型语言模型在总结任务中表现出令人满意的性能，超过了参考摘要的基准，人类评估者明显偏好大型语言模型生成的摘要而不是人工撰写的摘要和经过微调的模型生成的摘要，因为大型语言模型生成的摘要具有更好的事实连贯性和更少的外在幻觉实例。

Sep, 2023

通过 LLMs 简化长文档摘要评估

该研究提出了一种新方法，即从长文档中提取关键句子，然后通过提示大型语言模型来评估摘要，以解决计算成本高、长文档中的重要信息往往被忽视的问题，研究结果显示该方法不仅显著降低了评估成本，而且与人工评估的相关性更高，此外，我们还提供了关于最佳文档长度和句子提取方法的实用建议，为基于大型语言模型的文本生成评估的成本效益更高且更准确的方法的发展做出了贡献。

Sep, 2023

TriSum: 从大型语言模型中学习结构化理由的文摘能力

通过 TriSum 框架，我们将大型语言模型的文本摘要能力提炼为一个紧凑且本地化的模型，以应对资源有限和注重隐私的环境。通过对各项任务进行演化式学习，我们的方法在各个评估基准上提升了本地化模型的性能，并提供了摘要的合理解释。

Mar, 2024

新闻摘要的大型语言模型基准测试

通过对十种不同的预训练方法、提示和模型规模的大型语言模型进行人类评估，我们发现指导调整而不是模型规模是 LLM 的零样本摘要能力的关键，并通过从自由职业作家收集的高质量摘要进行人类评估，得出 LLM 摘要被认为与人类撰写的摘要相媲美的结论。

Jan, 2023

探索科学情绪摘要的多文档信息整合

基于三层框架的科学情感总结方式，本研究提出了评估生成的元评价的质量的评估指标，并在广泛实验证明通过将此框架作为 LLMs 的提示生成元评价的假设在实证中是可行的。

Feb, 2024

关于大型语言模型中的位置偏差的总结化问题

对于大型语言模型，在抽象摘要任务中表现出色，但在多文档问答中存在输入上下文偏差，导致摘要内容分散，影响性能。本文通过实证研究揭示了这种偏差对于大型语言模型在不同摘要评估上的挑战。

Oct, 2023

利用大型语言模型作为参考学习自动摘要

本文提出了一种新的学习范式，考虑到 LLMS 是常用摘要数据集中的参考标准，用对比学习和 LLM 作为摘要质量评估器进行摘要训练方法。实验证明，用 GPTScore 和 GPTRank 两种 LLM 计分方式训练出来的较小的摘要模型，其性能可以与参考的 LLM 相媲美，通过访问 LLMS 它只需要很小的预算。

May, 2023

大型语言模型：多样的角色扮演者用于摘要评估

本文提出了一种新的评估框架，基于 LLMs，并通过比较生成文本和参考文本来提供全面的评估。该模型基于角色扮演者提示机制模拟生成文本的客观和主观维度，并引入了上下文提示机制以生成基于输入上下文的动态角色扮演者配置文件，并根据批处理提示设计了多角色扮演者提示技术，以将多个评估结果集成到评估结果中。在自动摘要任务的两个真实数据集上进行的实验结果表明，该模型非常具有竞争力，且与人类注释者具有非常高的一致性。

Mar, 2023

开源语言模型在医学文本数据摘要中的比较分析

在医疗笔记和对话中，非结构化文本具有丰富的信息。最近大型语言模型（LLMs）的进展展示了对非结构化文本数据的问题回答和摘要任务的卓越性能，超过了传统的文本分析方法。然而，在文献中缺乏有系统地评估和报告不同 LLMs 性能的科学研究，特别是针对医疗病历等特定领域数据。我们提出了一种评估方法来分析开源 LLMs（如 Llama2 和 Mistral）在医疗摘要任务中的性能，使用 GPT-4 作为评估器。我们创新的 LLMs 定量评估方法可以实现质量控制，支持为特定任务选择有效的 LLMs，并推进数字健康领域的知识发现。

May, 2024