可控多文档摘要：基于大型语言模型奖励的覆盖和连贯直观策略

Oct, 2023

可控多文档摘要：基于大型语言模型奖励的覆盖和连贯直观策略

Controllable Multi-document Summarization: Coverage & Coherence Intuitive Policy with Large Language Model Based Rewards

PDF

Litton J Kurisinkel, Nancy F chen

TL;DR使用内存高效的大型语言模型进行文本精炼有助于提高可阅读性，而在长文本输入的文本生成任务中，如多文档摘要，控制性是一个需要关注的问题。本文研究了一种用于多文档摘要的通用的可控方法，利用大型语言模型来提炼文本。具体来说，我们训练了一个可控的内容提取方案，用于提取需要由大型语言模型提炼的文本。该方案采用了一种新颖的覆盖和连贯性直观策略，并由一个被动训练的大型语言模型适当地奖励。我们的方法在使用 ROUGE 指标进行评估时取得了有竞争力的结果，并在人工评估中在连贯性方面胜过潜在的基准。

Abstract

memory-efficient large language models are good at refining text input for better readability. However, controllability is a matter of concern when it comes to →

memory-efficient large language models controllability text generation tasks multi-document summarization coverage and coherence intuitive policy

发现论文，激发创造

基于大型语言模型的可控指令摘要生成与评估能力基准测试

语言模型在标准的概括基准测试中已经取得了强大的性能，但在更复杂的概括任务设置上的表现却鲜少被研究。本研究基于指令可控的文本概括对语言模型进行评估，并使用多种评估协议和多个语言模型进行了自动评估。研究结果表明，指令可控的文本概括对于语言模型仍然是一个具有挑战性的任务，存在各种错误和性能差异。我们公开提供了我们的评估基准 IntruSum，以促进未来的相关研究。

Nov, 2023

大型语言模型摘要能适应多样化的科学沟通目标吗？

研究大型语言模型在科学摘要任务上的可控性问题，通过控制文体特征发现没有经过微调的大型语言模型在 MuP 评审生成任务方面优于人类，同时表明我们可以通过基于关键词的无分类器引导来提高语言模型的可控性，从而在 arXiv 和 PubMed 上实现与强基线的词汇重叠相当的结果。然而，研究结果还表明大型语言模型无法一致生成超过 8 个句子的长摘要，且在生成高度抽象的通俗摘要方面存在有限能力，因此在领域特定应用中，仍然存在着需要昂贵微调才能解决的问题。

Jan, 2024

可控抽象摘要

本文提出了一种神经摘要模型，能够通过简单而有效的机制实现用户对文本长度、风格、感兴趣的实体等高级属性的控制，以生成符合用户需求的高质量摘要，并在 CNN-Dailymail 数据集上优于现有的自动化系统和人工评价。

Nov, 2017

关于大型语言模型中的位置偏差的总结化问题

对于大型语言模型，在抽象摘要任务中表现出色，但在多文档问答中存在输入上下文偏差，导致摘要内容分散，影响性能。本文通过实证研究揭示了这种偏差对于大型语言模型在不同摘要评估上的挑战。

Oct, 2023

自监督和可控多文档意见摘要

本文介绍了一种自我训练的方法，使用控制代码通过 Transformer 架构将多条评论进行无监督抽象摘要，并通过人工评估表明，该方法生成的摘要具有更高的质量和相关性。

Apr, 2020

利用大型语言模型进行元素感知式摘要：专家对齐评估和思路链方法

研究发现 CNN / DailyMail 和 BBC XSum 数据集的参考摘要存在噪音，因为这些摘要主要存在于事实幻觉和信息冗余方面。为了解决这个问题，他们提出了 “Summary Chain-of-Thought（SumCoT）” 技术，通过逐步摘要的方式生成细粒度的摘要。利用新的测试集，研究人员观察到 LLM 具有惊人的零 - shot 摘要能力，该技术旨在使他们将更细粒度的细节集成到与人类写作方式相关的最终摘要中。实验结果表明，该方法在两个数据集上的 ROUGE-L 优于现有技术。

May, 2023

大型语言模型：多样的角色扮演者用于摘要评估

本文提出了一种新的评估框架，基于 LLMs，并通过比较生成文本和参考文本来提供全面的评估。该模型基于角色扮演者提示机制模拟生成文本的客观和主观维度，并引入了上下文提示机制以生成基于输入上下文的动态角色扮演者配置文件，并根据批处理提示设计了多角色扮演者提示技术，以将多个评估结果集成到评估结果中。在自动摘要任务的两个真实数据集上进行的实验结果表明，该模型非常具有竞争力，且与人类注释者具有非常高的一致性。

Mar, 2023

TriSum: 从大型语言模型中学习结构化理由的文摘能力

通过 TriSum 框架，我们将大型语言模型的文本摘要能力提炼为一个紧凑且本地化的模型，以应对资源有限和注重隐私的环境。通过对各项任务进行演化式学习，我们的方法在各个评估基准上提升了本地化模型的性能，并提供了摘要的合理解释。

Mar, 2024

探索科学情绪摘要的多文档信息整合

基于三层框架的科学情感总结方式，本研究提出了评估生成的元评价的质量的评估指标，并在广泛实验证明通过将此框架作为 LLMs 的提示生成元评价的假设在实证中是可行的。

Feb, 2024

通过大型语言模型整合总结和检索，实现个性化增强

通过使用离线总结和运行时检索，我们提出了一种新颖的基于总结的方法，扩展了基于检索的个性化，以实现更好的实时系统性能，并在实际约束下取得了更好的个性化性能。

Oct, 2023