Summ^N: 长篇对话与文档的多阶段摘要框架
本文探索了对话摘要的三种策略:扩展变压器模型、检索后摘要流水线模型和分层对话编码模型,并在三个长对话数据集(QMSum、MediaSum、SummScreen)上进行了实验。结果表明,检索后摘要流水线模型具有最佳性能,并说明强大的检索模型和基于外部摘要数据集的预训练可以进一步提高摘要质量。
Sep, 2021
该研究探讨了对话摘要长度的影响因素,分析了摘要生成模型输出与人类参考文本的长度差异,并提出了基于长度感知的摘要生成模型,对DialogSum和SAMSum数据集进行实验,取得了显著的性能提升。
Sep, 2022
研究发现CNN / DailyMail和BBC XSum数据集的参考摘要存在噪音,因为这些摘要主要存在于事实幻觉和信息冗余方面。为了解决这个问题,他们提出了“Summary Chain-of-Thought(SumCoT)”技术,通过逐步摘要的方式生成细粒度的摘要。利用新的测试集,研究人员观察到LLM具有惊人的零-shot摘要能力,该技术旨在使他们将更细粒度的细节集成到与人类写作方式相关的最终摘要中。实验结果表明,该方法在两个数据集上的ROUGE-L优于现有技术。
May, 2023
本文介绍了一个使用 ChatGPT 和 C2F-FAR 提出的混合抽取和摘要文本的流程,可以用于长篇文章和书籍。机器生成的摘要可以与人工摘要在自动化评估指标下表现得一样好,但在文本连贯性、忠实度和风格等方面仍存在问题。因此,我们认为 ChatGPT 还不够成熟。这项工作为 NLP 研究人员提供了有关 ChatGPT 在文本摘要方面的能力与实践需求的重要信息,促进进一步研究。
Jun, 2023
通过两种工作流程 (层级合并、递增更新) 实现基于 LLM 的书籍摘要器的连贯性研究,发现 LLM 会出现八种常见的连贯性错误,并提出了一个自动评估指标 BooookScore,与人工标注结果一致,可用于系统评估其他关键参数的影响,同时节省了人工评估成本。
Oct, 2023
这篇研究论文使用了各种不同的大型语言模型,包括MPT-7b-instruct,falcon-7b-instruct和OpenAI ChatGPT text-davinci-003模型,通过不同的超参数对生成的摘要进行评估,并发现text-davinci-003模型的表现优于其他模型。该研究还分析了CNN Daily Mail和XSum两个不同的数据集,旨在提供对大型语言模型在不同数据集上应用时性能的全面理解。这项工作为对NLP领域的研究人员和从业者提供了有价值的见解,同时也为开发应对各种业务挑战的高级生成式人工智能应用奠定了基础。
Oct, 2023
通过深度神经网络、预训练语言模型和最新的大型语言模型的出现,文本摘要研究经历了几次重大转型,本文综述通过这些范式转变的视角全面回顾了文本摘要研究的进展和演变,分为两个主要部分:(1)在大型语言模型时代之前的数据集、评估指标和摘要方法的详细概述,包括传统统计方法、深度学习方法和预训练语言模型微调技术,以及(2)大型语言模型时代中对基准测试、建模和评估摘要的最新进展的首次详细研究。通过综合现有文献并提供一个连贯的概述,本文还讨论了研究趋势、面临的挑战以及在摘要研究中提出的有希望的研究方向,旨在引导研究人员了解摘要研究的不断演变的领域。
Jun, 2024
本研究聚焦于抽象文本摘要领域,系统综述了当前技术、存在的挑战和未来研究方向。通过详细比较传统序列到序列模型、预训练大语言模型及其他方法,提出了有效解决方案,旨在为研究人员提供一个结构化的视角,以推动抽象摘要研究的发展。
Sep, 2024