多样统一：学习分布式异构句子表示以进行摘要提取

Dec, 2019

多样统一：学习分布式异构句子表示以进行摘要提取

Unity in Diversity: Learning Distributed Heterogeneous Sentence Representation for Extractive Summarization

Abhishek Kumar Singh, Manish Gupta, Vasudeva Varma

TL;DR使用 HNet，通过挖掘句子中的各种语义和组成要素，结合与文档相关的特征进行句子排序，从而实现自动多文件抽取式文本摘要，相比基准模型，在 DUC 基准数据集上显著提高了 ROUGE 得分约1.5-2个百分点。

Abstract

Automated multi-document extractive text summarization is a widely studied research problem in the field of natural language understanding. Such extractive mechanisms compute in some form the worthiness of a sentence to be included into the summary. While the conventional approaches re

发现论文，激发创造

基于句子和单词提取的神经摘要

论文提出了一种基于神经网络和连续句子特征的数据驱动型抽取式摘要方法，采用层级文档编码器和基于注意力机制的提取器的通用框架，能够训练不同的摘要模型（提取句子或单词），在大规模语料库上进行实验结果表明，该方法在不需要语言注解的情况下取得了与现有技术相当的效果。

Mar, 2016

分类或选择：抽取式文档摘要的神经网络结构

该论文介绍了两种基于循环神经网络的不同的架构，来进行文档的提取式摘要，这两种架构都能捕捉摘要中的关键信息和语句冗余，并且在两个不同语料库上都取得了超过其他监督学习方法的性能。

Nov, 2016

联合学习打分和选择句子的神经文档摘要

在这篇论文中，我们提出了一种新颖的端到端神经网络框架，通过联合学习对句子进行评分和选择来实现摘要提取。在CNN / Daily Mail数据集上的实验证明，我们的方法比现有的抽取式摘要模型表现出更好的效果。

Jul, 2018

异质图神经网络用于文档摘要提取

本文介绍了一种异构图神经网络(HeterSumGraph) 用于信息抽取式文档摘要的任务中，该网络结构包含不同粒度级别的语义节点，这些额外的节点作为句子之间的中介，丰富交叉句关系，同时我们的图结构在自然扩展从单个文档设置到多文档，引入文档节点。该方法是第一次在基于图的神经网络中引入不同类型的节点进行信息抽取式文档摘要，并进行了全面的定性分析以探究其优劣。

Apr, 2020

长篇科学文档的基于话语的无监督摘要

本文提出了一种基于无监督的基于图的排名模型，用于提取科学文献的摘要。我们的方法假定源文档采用两级分层图表示，并利用不对称的位置提示来确定句子的重要性。在PubMed和arXiv数据集上的结果表明，我们的方法在自动指标和人工评价方面优于强无监督基线。此外，其性能与许多基于监督学习的方法相当。这些结果表明，篇章结构中的模式是确定科学文章重要性的强有力信号。

May, 2020

利用主题感知图神经网络增强抽取式文本摘要

本文提出了基于图神经网络（GNN）的抽取式摘要模型，并整合了深度神经主题模型（NTM）来发现潜在主题，从而提供句子选择的文档级特征，实验结果表明，我们的模型在CNN/DM和NYT数据集上取得了最先进的结果，在由较长文档组成的科学论文数据集上也明显优于现有方法，进一步研究表明，主题信息可以帮助模型从整个文档中预先选择凸显内容，因此能够有效地摘要长文档。

Oct, 2020

利用信息提取和压缩进行大规模多文档摘要

开发了一种基于抽象的总结框架，适用于多个异构文档，该框架独立于标记数据。与现有的多文件总结方法不同，我们的框架处理讲述不同故事的文档，而不是同一主题的文档。最后，我们基于CNN / Daily Mail和NewsRoom数据集构建了总共十二个数据集变体，其中每个文档组都包含大量且多样化的文档，以评估我们的模型与其他基线系统的性能。我们的实验表明，我们的框架在这种更通用的情况下胜过了现有的最先进方法。

May, 2022

基于异构图嵌入的无监督中文摘要提取

本文提出了首个基于异构图嵌入的无监督抽取式摘要方法，构造异构文本图以捕捉不同粒度的交互，并取得了在三个摘要数据集上的一致优异结果。

Nov, 2022

使用双分图预训练进行无监督的图卷积自编码器抽取式摘要

利用预训练句子表示解决自动摘要中的关键句子识别问题，通过图预训练自编码器获得句子嵌入，并应用基于图的排名算法进行无监督摘要生成，表现优于基于BERT或RoBERTa的句子表示方法。

Oct, 2023

RankSum：一种基于排名融合的无监督提取式文本摘要

本文介绍了一种名为Ranksum的基于多维句子特征排名融合的单文本抽取式摘要方法，通过提取每个句子的主题信息、语义内容、显著关键词和位置，然后在无监督的方式下使用加权融合四个分数，将句子按照重要性进行排序。该方法利用概率主题模型确定主题排名，使用句子嵌入来捕捉语义信息，通过Siamese网络生成抽象句子表示，并利用图论方法找到文档中的重要关键词和相关句子排名，在摘要中采用基于二元组、三元组和句子嵌入的句子新颖性度量来消除冗余句子，最后融合所有特征计算出文档中每个句子的最终得分。实验结果表明，该方法在公开的CNN/DailyMail和DUC 2002摘要数据集上优于其他现有最先进的摘要方法。

Feb, 2024