关键元素信息化的文档摘要优化

Jun, 2024

Key-Element-Informed sLLM Tuning for Document Summarization

Sangwon Ryu, Heejin Do, Yunsu Kim, Gary Geunbae Lee, Jungseul Ok

TL;DR通过关键元素指导训练小规模语言模型（sLLMs）进行文本摘要，提高了关键信息和实体的相关性，达到了与专有大规模语言模型相媲美的高质量摘要。

Abstract

Remarkable advances in large language models (LLMs) have enabled high-quality text summarization. However, this capability is currently ac

large language models text summarization smaller-scale llms key-element-informed instruction tuning summarization

发现论文，激发创造

利用大型语言模型进行元素感知式摘要：专家对齐评估和思路链方法

研究发现 CNN / DailyMail 和 BBC XSum 数据集的参考摘要存在噪音，因为这些摘要主要存在于事实幻觉和信息冗余方面。为了解决这个问题，他们提出了 “Summary Chain-of-Thought（SumCoT）” 技术，通过逐步摘要的方式生成细粒度的摘要。利用新的测试集，研究人员观察到 LLM 具有惊人的零 - shot 摘要能力，该技术旨在使他们将更细粒度的细节集成到与人类写作方式相关的最终摘要中。实验结果表明，该方法在两个数据集上的 ROUGE-L 优于现有技术。

May, 2023

通过 LLMs 简化长文档摘要评估

该研究提出了一种新方法，即从长文档中提取关键句子，然后通过提示大型语言模型来评估摘要，以解决计算成本高、长文档中的重要信息往往被忽视的问题，研究结果显示该方法不仅显著降低了评估成本，而且与人工评估的相关性更高，此外，我们还提供了关于最佳文档长度和句子提取方法的实用建议，为基于大型语言模型的文本生成评估的成本效益更高且更准确的方法的发展做出了贡献。

Sep, 2023

新闻摘要的大型语言模型基准测试

通过对十种不同的预训练方法、提示和模型规模的大型语言模型进行人类评估，我们发现指导调整而不是模型规模是 LLM 的零样本摘要能力的关键，并通过从自由职业作家收集的高质量摘要进行人类评估，得出 LLM 摘要被认为与人类撰写的摘要相媲美的结论。

Jan, 2023

文本摘要质量评估方法的比较研究

基于大型语言模型的方法用于评估文本摘要，与人工评估相比，其结果接近，并且比常用的自动度量方法更一致。因此，我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架，具有广泛的关注度。

Jun, 2024

基于大型语言模型的可控指令摘要生成与评估能力基准测试

语言模型在标准的概括基准测试中已经取得了强大的性能，但在更复杂的概括任务设置上的表现却鲜少被研究。本研究基于指令可控的文本概括对语言模型进行评估，并使用多种评估协议和多个语言模型进行了自动评估。研究结果表明，指令可控的文本概括对于语言模型仍然是一个具有挑战性的任务，存在各种错误和性能差异。我们公开提供了我们的评估基准 IntruSum，以促进未来的相关研究。

Nov, 2023

关于大型语言模型中的位置偏差的总结化问题

对于大型语言模型，在抽象摘要任务中表现出色，但在多文档问答中存在输入上下文偏差，导致摘要内容分散，影响性能。本文通过实证研究揭示了这种偏差对于大型语言模型在不同摘要评估上的挑战。

Oct, 2023

KS-LLM: 大型语言模型问题回答的证据文档知识选择

利用证据文档作为额外支持材料的知识选择方法可有效解决大型语言模型面临的幻觉问题和知识密集任务，提升大型语言模型的性能。该方法使用三元组从证据文档中选择有益于回答问题的知识片段，并与大型语言模型结合产生答案，实验证明其优于基线方法并取得最佳结果。

Apr, 2024

总结（几乎）已死

大型语言模型在总结任务中表现出令人满意的性能，超过了参考摘要的基准，人类评估者明显偏好大型语言模型生成的摘要而不是人工撰写的摘要和经过微调的模型生成的摘要，因为大型语言模型生成的摘要具有更好的事实连贯性和更少的外在幻觉实例。

Sep, 2023

LaMSUM: 一种使用 LLMs 的用户生成内容抽取式摘要的新框架

这项研究通过利用投票算法，提出了一种新的框架 LaMSUM，通过大型语言模型生成用户生成的文本的摘要，结果显示 LaMSUM 优于现有的提取式摘要方法，同时试图解释语言模型生成的摘要产生的原因。

Jun, 2024

利用大型语言模型作为参考学习自动摘要

本文提出了一种新的学习范式，考虑到 LLMS 是常用摘要数据集中的参考标准，用对比学习和 LLM 作为摘要质量评估器进行摘要训练方法。实验证明，用 GPTScore 和 GPTRank 两种 LLM 计分方式训练出来的较小的摘要模型，其性能可以与参考的 LLM 相媲美，通过访问 LLMS 它只需要很小的预算。

May, 2023