基于分布式词袋模型的多文档摘要

Oct, 2017

基于分布式词袋模型的多文档摘要

Multi-Document Summarization using Distributed Bag-of-Words Model

Kaustubh Mani, Ishan Verma, Hardik Meisheri, Lipika Dey

TL;DR本文提出了一种无监督基于质心的文档级重构框架，利用分布式词袋模型来选择摘要句以最小化摘要和文档之间的重构误差，并应用句子选择和波束搜索来进一步提高模型性能。针对两个不同的数据集实验结果表明，与现有基线相比，我们的模型表现出显著的性能提升。

Abstract

As the number of documents on the web is growing exponentially, multi-document summarization is becoming more and more important since it can provide the main ideas in a document set in short time. In this paper, we present an unsupervised →

multi-document summarization centroid-based document-level reconstruction sentence selection beam search performance gains

发现论文，激发创造

重温基于质心方法：多文档摘要的坚强基准

本文提出基于质心的模型在文本摘要中的应用，并使用贪心算法来寻找最佳摘要，同时通过选择每个文档中的少量句子来扩展到更大的文本集合。在 DUC2004 数据集中的实验结果表明，该方法能得到与复杂最新方法相当的效果。

Aug, 2017

利用信息提取和压缩进行大规模多文档摘要

开发了一种基于抽象的总结框架，适用于多个异构文档，该框架独立于标记数据。与现有的多文件总结方法不同，我们的框架处理讲述不同故事的文档，而不是同一主题的文档。最后，我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体，其中每个文档组都包含大量且多样化的文档，以评估我们的模型与其他基线系统的性能。我们的实验表明，我们的框架在这种更通用的情况下胜过了现有的最先进方法。

May, 2022

无监督摘要的句子重要性再探讨

本文提出了一种针对新闻摘要自动提取的无监督方法，该方法采用神经网络模型并结合基于图论的排名算法，使用 BERT 模型来更好地捕获句子意义，显著超过强基线的效果。

Jun, 2019

无监督全局推理下的多文档自动摘要

该研究提出了一种新的整体框架用于无监督的多文档摘要，通过综合度量指标 Subset Representative Index（SRI）平衡了源文件中一部分句子的重要性和多样性，并且经过了大规模实验进行了验证，其结果显示该方法在 ROUGE 得分和多样性度量方面明显优于强基准线，并且多样性对于提高多文档摘要性能至关重要。

Sep, 2023

主题引导的抽象多文档摘要

该论文提出了一种基于异构图和神经主题模型的抽象多文档摘要模型，采用图到序列的框架，同时训练主题和摘要模块以提高性能和生成高质量主题。

Oct, 2021

长篇科学文档的基于话语的无监督摘要

本文提出了一种基于无监督的基于图的排名模型，用于提取科学文献的摘要。我们的方法假定源文档采用两级分层图表示，并利用不对称的位置提示来确定句子的重要性。在 PubMed 和 arXiv 数据集上的结果表明，我们的方法在自动指标和人工评价方面优于强无监督基线。此外，其性能与许多基于监督学习的方法相当。这些结果表明，篇章结构中的模式是确定科学文章重要性的强有力信号。

May, 2020

面向连贯多文档摘要的提取排序算法

该研究旨在开发一种在多文档环境中的提取式摘要生成器，使用基于排名的句子选择方法以及连续向量表示和关键短语，并提出了一种模型来解决摘要连贯性问题，以提高可读性。实验结果表明，在信息量和连贯性方面，该方法相对于现有方法有了显著的改进。

Jun, 2017

基于分心注意力的神经网络文档摘要

本文提出基于神经网络的 attention 模型来对长文档进行自动摘要。通过追踪文档主题之间的切换，模型实现了更好的文档理解效果，并在两个大型数据集上取得了最优表现。

Oct, 2016

基于质心的多文档摘要：句子提取、基于效用的评估和用户研究

本文介绍了一种多文档摘要器 MEAD，它使用由主题检测和跟踪系统产生的聚类中心来生成摘要。我们还描述了基于句子效用和包容性的两种新技术，这些技术已应用于单个和多个文档摘要的评估。最后，我们描述了两项用户研究，测试了我们的多文档摘要模型。

May, 2000

监督中心点基准用于提取式多文档摘要

通过在句子选择中添加一种束搜索过程和一个质心估计关注模型，我们进一步改进了质心方法，在多个多文档摘要数据集中展示出了改进的结果，包括多语言情景的应用。

Nov, 2023