多样统一:学习分布式异构句子表示以进行摘要提取
论文提出了一种基于神经网络和连续句子特征的数据驱动型抽取式摘要方法,采用层级文档编码器和基于注意力机制的提取器的通用框架,能够训练不同的摘要模型(提取句子或单词),在大规模语料库上进行实验结果表明,该方法在不需要语言注解的情况下取得了与现有技术相当的效果。
Mar, 2016
该论文介绍了两种基于循环神经网络的不同的架构,来进行文档的提取式摘要,这两种架构都能捕捉摘要中的关键信息和语句冗余,并且在两个不同语料库上都取得了超过其他监督学习方法的性能。
Nov, 2016
在这篇论文中,我们提出了一种新颖的端到端神经网络框架,通过联合学习对句子进行评分和选择来实现摘要提取。在CNN / Daily Mail数据集上的实验证明,我们的方法比现有的抽取式摘要模型表现出更好的效果。
Jul, 2018
本文介绍了一种异构图神经网络(HeterSumGraph) 用于信息抽取式文档摘要的任务中,该网络结构包含不同粒度级别的语义节点,这些额外的节点作为句子之间的中介,丰富交叉句关系,同时我们的图结构在自然扩展从单个文档设置到 多文档,引入文档节点。该方法是第一次在基于图的神经网络中引入不同类型的节点进行信息抽取式文档摘要,并进行了全面的定性分析以探究其优劣。
Apr, 2020
本文提出了一种基于无监督的基于图的排名模型,用于提取科学文献的摘要。我们的方法假定源文档采用两级分层图表示,并利用不对称的位置提示来确定句子的重要性。在PubMed和arXiv数据集上的结果表明,我们的方法在自动指标和人工评价方面优于强无监督基线。此外,其性能与许多基于监督学习的方法相当。这些结果表明,篇章结构中的模式是确定科学文章重要性的强有力信号。
May, 2020
本文提出了基于图神经网络(GNN)的抽取式摘要模型,并整合了深度神经主题模型(NTM)来发现潜在主题,从而提供句子选择的文档级特征,实验结果表明,我们的模型在CNN/DM和NYT数据集上取得了最先进的结果,在由较长文档组成的科学论文数据集上也明显优于现有方法,进一步研究表明,主题信息可以帮助模型从整个文档中预先选择凸显内容,因此能够有效地摘要长文档。
Oct, 2020
开发了一种基于抽象的总结框架,适用于多个异构文档,该框架独立于标记数据。 与现有的多文件总结方法不同,我们的框架处理讲述不同故事的文档,而不是同一主题的文档。 最后,我们基于CNN / Daily Mail和NewsRoom数据集构建了总共十二个数据集变体,其中每个文档组都包含大量且多样化的文档,以评估我们的模型与其他基线系统的性能。 我们的实验表明,我们的框架在这种更通用的情况下胜过了现有的最先进方法。
May, 2022
利用预训练句子表示解决自动摘要中的关键句子识别问题,通过图预训练自编码器获得句子嵌入,并应用基于图的排名算法进行无监督摘要生成,表现优于基于BERT或RoBERTa的句子表示方法。
Oct, 2023
本文介绍了一种名为Ranksum的基于多维句子特征排名融合的单文本抽取式摘要方法,通过提取每个句子的主题信息、语义内容、显著关键词和位置,然后在无监督的方式下使用加权融合四个分数,将句子按照重要性进行排序。该方法利用概率主题模型确定主题排名,使用句子嵌入来捕捉语义信息,通过Siamese网络生成抽象句子表示,并利用图论方法找到文档中的重要关键词和相关句子排名,在摘要中采用基于二元组、三元组和句子嵌入的句子新颖性度量来消除冗余句子,最后融合所有特征计算出文档中每个句子的最终得分。实验结果表明,该方法在公开的CNN/DailyMail和DUC 2002摘要数据集上优于其他现有最先进的摘要方法。
Feb, 2024