SumHiS: 挖掘隐藏结构的提取式摘要

Jun, 2024

SumHiS: 挖掘隐藏结构的提取式摘要

SumHiS: Extractive Summarization Exploiting Hidden Structure

Tikhonov Pavel, Anastasiya Ianina, Valentin Malykh

TL;DR我们介绍了一种利用文本的隐藏聚类结构进行摘要提取的新方法。在 CNN/DailyMail 数据集上的实验结果表明，我们的方法生成的摘要比提取式和抽象式方法更准确，并在 ROUGE-2 指标方面取得了超过先前方法 10% 的最新成果。此外，我们还展示了文本的隐藏结构可以解释为不同的主题。

Abstract

extractive summarization is a task of highlighting the most important parts of the text. We introduce a new approach to extractive summarization task using →

extractive summarization hidden clustering structure cnn/dailymail accurate summaries rouge-2 metric

发现论文，激发创造

HiStruct+: 基于层次结构信息的提取式文本摘要优化

通过提出的 HiStruct+ 模型，将 Transformer-based language models 中的层级结构信息显式注入到提取式文摘模型中，提高了 PubMed 和 arXiv 数据集中提取式文摘的 ROUGEs 指标，实验发现：数据集对模型效果的影响是关键因素，数据集中的明显层级结构可以取得更大的性能提升，而在模型的表现中，层级位置信息的贡献最大。

Mar, 2022

自动新闻摘要

本研究论文针对新闻文本自动摘要的抽取和生成方法进行了广泛的比较评估，重点分析了 ROUGE 分数。研究使用 CNN-Daily Mail 数据集，包括新闻文章和人工生成的参考摘要。通过 ROUGE 分数评估生成摘要的效果和质量，再将表现最佳的模型整合到 Web 应用程序中，评估其在真实世界中的能力和用户体验。

Oct, 2023

神经潜在抽取式文档摘要

本篇文章提出一种基于潜变量的抽取式文本摘要模型，通过使用句子作为潜变量和检索金标准摘要来改善基于启发式标签的抽取式模型，并在 CNN/Dailymail 数据集上得到了良好的结果。

Aug, 2018

基于句子和单词提取的神经摘要

论文提出了一种基于神经网络和连续句子特征的数据驱动型抽取式摘要方法，采用层级文档编码器和基于注意力机制的提取器的通用框架，能够训练不同的摘要模型（提取句子或单词），在大规模语料库上进行实验结果表明，该方法在不需要语言注解的情况下取得了与现有技术相当的效果。

Mar, 2016

基于文本匹配的抽取式摘要

通过语义文本匹配任务范式，本论文提出了一种新的神经抽取式摘要系统构建方法。经过与原有抽取式摘要方法数据集的实验对比，该方法取得了更好的抽取结果，并通过对 CNN / DailyMail 数据集的实验，创造了 44.41 的新高水平。我们相信，这种基于匹配的摘要框架的潜力还未完全被利用。

Apr, 2020

由潜在分层文档结构引导的抽象摘要

提出使用层次感知图神经网络（HierGNN）实现文档结构层次分析的自动摘要模型，在 CNN / DM 和 XSum 数据集上分别取得了平均 ROUGE-1/2/L 为 0.55 和 0.75，在人工评估中也证明了其比基线具有更高的内容相关性和较少的冗余。

Nov, 2022

神经抽取式文本摘要与句法压缩

本文提出了一种基于联合提取和句法压缩的神经模型用于单文档摘要，该模型选择文档中的句子，通过句法分析识别可能的压缩，并用神经模型评分这些压缩以生成最终的摘要，实验结果表明，该模型在 ROUGE 评估中表现良好，能够达到与最先进系统相当的性能，并且其输出一般保持语法正确。

Feb, 2019

利用主题感知图神经网络增强抽取式文本摘要

本文提出了基于图神经网络（GNN）的抽取式摘要模型，并整合了深度神经主题模型（NTM）来发现潜在主题，从而提供句子选择的文档级特征，实验结果表明，我们的模型在 CNN/DM 和 NYT 数据集上取得了最先进的结果，在由较长文档组成的科学论文数据集上也明显优于现有方法，进一步研究表明，主题信息可以帮助模型从整个文档中预先选择凸显内容，因此能够有效地摘要长文档。

Oct, 2020

DiffuSum: 借助扩散增强的抽取式摘要生成

这篇论文提出了一个新的提取性摘要范式，名为 DiffuSum，通过扩散模型直接生成所需的摘要句子表示，并根据句子表示匹配来提取句子，并通过多类对比损失对表示多样性进行优化，实验结果表明 DiffuSum 在 CNN / DailyMail 上实现了新的最先进的提取结果，ROUGE 得分为 $44.83 / 22.56 / 40.56$，并且在其他两个数据集上的实验结果也表明了 DiffuSum 的有效性。

May, 2023

利用预训练的层次 Transformer 进行无监督抽取式摘要

本文提出了一种使用 transformer 自注意力机制进行无监督文本摘要提取的方法，并在 CNN / DailyMail 和 New York Times 数据集上证明其优于现有的无监督模型，且不太依赖于句子位置。

Oct, 2020