无监督摘要的句子重要性再探讨

ACLJun, 2019

Sentence Centrality Revisited for Unsupervised Summarization

Hao Zheng, Mirella Lapata

TL;DR本文提出了一种针对新闻摘要自动提取的无监督方法，该方法采用神经网络模型并结合基于图论的排名算法，使用 BERT 模型来更好地捕获句子意义，显著超过强基线的效果。

Abstract

single document summarization has enjoyed renewed interests in recent years thanks to the popularity of neural network models and the availability of large-scale datasets. In this paper we develop an

single document summarization unsupervised approach neural network models graph-based ranking algorithm bert

发现论文，激发创造

长篇科学文档的基于话语的无监督摘要

本文提出了一种基于无监督的基于图的排名模型，用于提取科学文献的摘要。我们的方法假定源文档采用两级分层图表示，并利用不对称的位置提示来确定句子的重要性。在 PubMed 和 arXiv 数据集上的结果表明，我们的方法在自动指标和人工评价方面优于强无监督基线。此外，其性能与许多基于监督学习的方法相当。这些结果表明，篇章结构中的模式是确定科学文章重要性的强有力信号。

May, 2020

重温基于质心方法：多文档摘要的坚强基准

本文提出基于质心的模型在文本摘要中的应用，并使用贪心算法来寻找最佳摘要，同时通过选择每个文档中的少量句子来扩展到更大的文本集合。在 DUC2004 数据集中的实验结果表明，该方法能得到与复杂最新方法相当的效果。

Aug, 2017

基于句子和单词提取的神经摘要

论文提出了一种基于神经网络和连续句子特征的数据驱动型抽取式摘要方法，采用层级文档编码器和基于注意力机制的提取器的通用框架，能够训练不同的摘要模型（提取句子或单词），在大规模语料库上进行实验结果表明，该方法在不需要语言注解的情况下取得了与现有技术相当的效果。

Mar, 2016

利用预训练的层次 Transformer 进行无监督抽取式摘要

本文提出了一种使用 transformer 自注意力机制进行无监督文本摘要提取的方法，并在 CNN / DailyMail 和 New York Times 数据集上证明其优于现有的无监督模型，且不太依赖于句子位置。

Oct, 2020

RankSum：一种基于排名融合的无监督提取式文本摘要

本文介绍了一种名为 Ranksum 的基于多维句子特征排名融合的单文本抽取式摘要方法，通过提取每个句子的主题信息、语义内容、显著关键词和位置，然后在无监督的方式下使用加权融合四个分数，将句子按照重要性进行排序。该方法利用概率主题模型确定主题排名，使用句子嵌入来捕捉语义信息，通过 Siamese 网络生成抽象句子表示，并利用图论方法找到文档中的重要关键词和相关句子排名，在摘要中采用基于二元组、三元组和句子嵌入的句子新颖性度量来消除冗余句子，最后融合所有特征计算出文档中每个句子的最终得分。实验结果表明，该方法在公开的 CNN/DailyMail 和 DUC 2002 摘要数据集上优于其他现有最先进的摘要方法。

Feb, 2024

通过学习潜在的话语结构及其排名实现评论的非监督式神经单篇摘要

通过递归估计父句子与子句子之间的关系，组成一个无须外部解析器的潜在篇章树，以此进行无监督的单篇产品评论的纯摘要，并介绍了一种句子重要性排序的架构来生成集中在主要评论点的摘要。研究结果表明，该模型在相对长的评论中表现竞争或超越受监督模型的表现，其生成的摘要抽象了整个评论。

Jun, 2019

引用图增强的科学论文摘要提取

本文研究了使用引文图来提高科学论文摘要生成的质量，提出了两种方法：为任务提供简单而低成本的多粒度无监督摘要生成方法 (MUS)，以及对大量标记数据具有更准确结果的基于图的监督摘要方法 (GSS)，并在公共基准数据集上进行了实验验证以证明方法的有效性。

Dec, 2022

无监督抽取式摘要中句子相似度估计的改进

研究了两种新策略以提高自动抽取摘要的句子相似度估计，其中对比学习优化了文本级目标，同时使用互相学习增强句子相似度估计与句子重要性排名之间的关系。实验结果显示了策略的有效性。

Feb, 2023

LexRank：基于图的词汇中心性作为文本摘要中的显著性

本文提出了一种基于随机图的方法，用于计算自然语言处理中文本单元的相对重要性，并通过使用新方法 LexRank 进行文本自动摘要。实验结果表明，基于相似度图的按度数排序的方法优于其他方法。

Sep, 2011

基于分布式词袋模型的多文档摘要

本文提出了一种无监督基于质心的文档级重构框架，利用分布式词袋模型来选择摘要句以最小化摘要和文档之间的重构误差，并应用句子选择和波束搜索来进一步提高模型性能。针对两个不同的数据集实验结果表明，与现有基线相比，我们的模型表现出显著的性能提升。

Oct, 2017