无监督摘要的句子重要性再探讨
本文提出了一种基于无监督的基于图的排名模型,用于提取科学文献的摘要。我们的方法假定源文档采用两级分层图表示,并利用不对称的位置提示来确定句子的重要性。在 PubMed 和 arXiv 数据集上的结果表明,我们的方法在自动指标和人工评价方面优于强无监督基线。此外,其性能与许多基于监督学习的方法相当。这些结果表明,篇章结构中的模式是确定科学文章重要性的强有力信号。
May, 2020
本文提出基于质心的模型在文本摘要中的应用,并使用贪心算法来寻找最佳摘要,同时通过选择每个文档中的少量句子来扩展到更大的文本集合。在 DUC2004 数据集中的实验结果表明,该方法能得到与复杂最新方法相当的效果。
Aug, 2017
论文提出了一种基于神经网络和连续句子特征的数据驱动型抽取式摘要方法,采用层级文档编码器和基于注意力机制的提取器的通用框架,能够训练不同的摘要模型(提取句子或单词),在大规模语料库上进行实验结果表明,该方法在不需要语言注解的情况下取得了与现有技术相当的效果。
Mar, 2016
本文提出了一种使用 transformer 自注意力机制进行无监督文本摘要提取的方法,并在 CNN / DailyMail 和 New York Times 数据集上证明其优于现有的无监督模型,且不太依赖于句子位置。
Oct, 2020
本文介绍了一种名为 Ranksum 的基于多维句子特征排名融合的单文本抽取式摘要方法,通过提取每个句子的主题信息、语义内容、显著关键词和位置,然后在无监督的方式下使用加权融合四个分数,将句子按照重要性进行排序。该方法利用概率主题模型确定主题排名,使用句子嵌入来捕捉语义信息,通过 Siamese 网络生成抽象句子表示,并利用图论方法找到文档中的重要关键词和相关句子排名,在摘要中采用基于二元组、三元组和句子嵌入的句子新颖性度量来消除冗余句子,最后融合所有特征计算出文档中每个句子的最终得分。实验结果表明,该方法在公开的 CNN/DailyMail 和 DUC 2002 摘要数据集上优于其他现有最先进的摘要方法。
Feb, 2024
通过递归估计父句子与子句子之间的关系,组成一个无须外部解析器的潜在篇章树,以此进行无监督的单篇产品评论的纯摘要,并介绍了一种句子重要性排序的架构来生成集中在主要评论点的摘要。研究结果表明,该模型在相对长的评论中表现竞争或超越受监督模型的表现,其生成的摘要抽象了整个评论。
Jun, 2019
本文研究了使用引文图来提高科学论文摘要生成的质量,提出了两种方法:为任务提供简单而低成本的多粒度无监督摘要生成方法 (MUS),以及对大量标记数据具有更准确结果的基于图的监督摘要方法 (GSS),并在公共基准数据集上进行了实验验证以证明方法的有效性。
Dec, 2022
研究了两种新策略以提高自动抽取摘要的句子相似度估计,其中对比学习优化了文本级目标,同时使用互相学习增强句子相似度估计与句子重要性排名之间的关系。实验结果显示了策略的有效性。
Feb, 2023
本文提出了一种基于随机图的方法,用于计算自然语言处理中文本单元的相对重要性,并通过使用新方法 LexRank 进行文本自动摘要。实验结果表明,基于相似度图的按度数排序的方法优于其他方法。
Sep, 2011
本文提出了一种无监督基于质心的文档级重构框架,利用分布式词袋模型来选择摘要句以最小化摘要和文档之间的重构误差,并应用句子选择和波束搜索来进一步提高模型性能。针对两个不同的数据集实验结果表明,与现有基线相比,我们的模型表现出显著的性能提升。
Oct, 2017