生成长文档的扩展摘要

Dec, 2020

On Generating Extended Summaries of Long Documents

Sajad Sotudeh, Arman Cohan, Nazli Goharian

TL;DR本研究基于多任务学习方法，利用文件的层次结构生成长篇文献的扩展摘要，并在三个大型数据集上验证其优于其他强基准模型的性能，为长篇文献摘要生成任务的未来研究提供了深入的洞见。

Abstract

Prior work in document summarization has mainly focused on generating short summaries of a document. While this type of summary helps get a high-level view of a given document, it is desirable in some cases to know more detailed information about its salient points that can't fit in a

document summarization extended summaries hierarchical structure multi-task learning approach long-form summarization

发现论文，激发创造

长文档摘要的实证调查：数据集、模型和度量

本综述论文系统性地评估了长文档自动摘要各主要组成部分的研究进展，包括基准数据集、摘要模型和评估方法，并提出未来工作的方向。

Jul, 2022

Summaformers @ LaySumm 20, LongSumm 20

本文探讨了利用 Transformer-based 系统概括多领域科学研究论文的问题，并设计了两种不同类型的概述手段，即 LaySumm 和 LongSumm，使用 ROUGE 指标有效评估了本文系统的优越性。

Jan, 2021

长文档摘要的分而治之方法

该研究提出了一种新颖的分治法神经摘要长文档的方法，结合话语结构和句子相似性将长文档分解为多个摘要子问题。通过该方法可以有效地降低计算复杂度，提高摘要效果。

Apr, 2020

通过 LLMs 简化长文档摘要评估

该研究提出了一种新方法，即从长文档中提取关键句子，然后通过提示大型语言模型来评估摘要，以解决计算成本高、长文档中的重要信息往往被忽视的问题，研究结果显示该方法不仅显著降低了评估成本，而且与人工评估的相关性更高，此外，我们还提供了关于最佳文档长度和句子提取方法的实用建议，为基于大型语言模型的文本生成评估的成本效益更高且更准确的方法的发展做出了贡献。

Sep, 2023

文档级主体概括

本文研究使用 Transformer 技术来提高自动文本摘要的效率，提出基于检索的方法，可以降低处理整个文档的成本。实验结果表明，相较于基线，该方法的存储占用更少，且保证了文本摘要的可靠性。

Dec, 2022

长篇科学文档的基于话语的无监督摘要

本文提出了一种基于无监督的基于图的排名模型，用于提取科学文献的摘要。我们的方法假定源文档采用两级分层图表示，并利用不对称的位置提示来确定句子的重要性。在 PubMed 和 arXiv 数据集上的结果表明，我们的方法在自动指标和人工评价方面优于强无监督基线。此外，其性能与许多基于监督学习的方法相当。这些结果表明，篇章结构中的模式是确定科学文章重要性的强有力信号。

May, 2020

长文本和多表总结：数据集和方法

旨在创造简明摘要以涵盖输入文档的要点信息。自动文档摘要对文本和非文本内容进行了讨论，提出了涵盖定量描述的关键指标的表格数据的重要性，提出了一个大规模数据集和三种摘要方法，还评估了评估指标

Feb, 2023

利用信息提取和压缩进行大规模多文档摘要

开发了一种基于抽象的总结框架，适用于多个异构文档，该框架独立于标记数据。与现有的多文件总结方法不同，我们的框架处理讲述不同故事的文档，而不是同一主题的文档。最后，我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体，其中每个文档组都包含大量且多样化的文档，以评估我们的模型与其他基线系统的性能。我们的实验表明，我们的框架在这种更通用的情况下胜过了现有的最先进方法。

May, 2022

结合全局和局部上下文的长文档摘要提取

本文提出了一种新颖的神经网络抽取式文档摘要模型，结合整个文档的全局上下文和当前主题内的局部上下文；我们在 Pubmed 和 arXiv 两个科学论文数据集上评估了该模型，并在 ROUGE-1，ROUGE-2 和 METEOR 分数上优于以前的工作，包括抽象模型和提取模型；更为惊讶的是，消融分析表明，我们的模型的好处似乎仅来自于对局部上下文的建模，即使对于最长的文档。

Sep, 2019

基於 Transformer 語言模型的抽取式和生成式神經文件摘要

本文采用神经抽象总结的方法来产生长文档的抽象总结，该方法使用一个简单的抽取步骤来生成一个摘要，然后将其用作相关信息的转换器语言模型的条件，然后生成一个摘要。我们展示了这个抽取步骤显著地改善了总结结果，而且这种方法产生的抽象总结比以前采用复制机制的工作能够实现更高的浸润得分。

Sep, 2019