重温基于质心方法：多文档摘要的坚强基准

MMAug, 2017

重温基于质心方法：多文档摘要的坚强基准

Revisiting the Centroid-based Method: A Strong Baseline for Multi-Document Summarization

Demian Gholipour Ghalandari

TL;DR本文提出基于质心的模型在文本摘要中的应用，并使用贪心算法来寻找最佳摘要，同时通过选择每个文档中的少量句子来扩展到更大的文本集合。在 DUC2004 数据集中的实验结果表明，该方法能得到与复杂最新方法相当的效果。

Abstract

The centroid-based model for extractive document summarization is a simple and fast baseline that ranks sentences based on their similarity to a centroid vector. In this paper, we apply this →

centroid-based model extractive document summarization ranking greedy algorithm multi-document summarization

发现论文，激发创造

监督中心点基准用于提取式多文档摘要

通过在句子选择中添加一种束搜索过程和一个质心估计关注模型，我们进一步改进了质心方法，在多个多文档摘要数据集中展示出了改进的结果，包括多语言情景的应用。

Nov, 2023

基于质心的多文档摘要：句子提取、基于效用的评估和用户研究

本文介绍了一种多文档摘要器 MEAD，它使用由主题检测和跟踪系统产生的聚类中心来生成摘要。我们还描述了基于句子效用和包容性的两种新技术，这些技术已应用于单个和多个文档摘要的评估。最后，我们描述了两项用户研究，测试了我们的多文档摘要模型。

May, 2000

基于质心预训练的多文档摘要

本文提出了一种简单的预训练目标：选择每个文档簇的基于 ROUGE 的中心点作为摘要，以用于多文件摘要的预训练。通过多个 MDS 数据集的零 - shot 和完全监督实验，我们证明了我们的 Centrum 模型比最先进的模型更好或具有可比性。

Aug, 2022

无监督摘要的句子重要性再探讨

本文提出了一种针对新闻摘要自动提取的无监督方法，该方法采用神经网络模型并结合基于图论的排名算法，使用 BERT 模型来更好地捕获句子意义，显著超过强基线的效果。

Jun, 2019

基于分布式词袋模型的多文档摘要

本文提出了一种无监督基于质心的文档级重构框架，利用分布式词袋模型来选择摘要句以最小化摘要和文档之间的重构误差，并应用句子选择和波束搜索来进一步提高模型性能。针对两个不同的数据集实验结果表明，与现有基线相比，我们的模型表现出显著的性能提升。

Oct, 2017

面向连贯多文档摘要的提取排序算法

该研究旨在开发一种在多文档环境中的提取式摘要生成器，使用基于排名的句子选择方法以及连续向量表示和关键短语，并提出了一种模型来解决摘要连贯性问题，以提高可读性。实验结果表明，在信息量和连贯性方面，该方法相对于现有方法有了显著的改进。

Jun, 2017

通过判别式摘要排序的多文档摘要

本文提出了基于 ILP 框架提取每个文档集的一组候选摘要，然后利用排名 SVM 进行摘要重新排名的方法，结果通过 DUC 基准数据集验证了方法的有效性和鲁棒性。

Jul, 2015

利用信息提取和压缩进行大规模多文档摘要

开发了一种基于抽象的总结框架，适用于多个异构文档，该框架独立于标记数据。与现有的多文件总结方法不同，我们的框架处理讲述不同故事的文档，而不是同一主题的文档。最后，我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体，其中每个文档组都包含大量且多样化的文档，以评估我们的模型与其他基线系统的性能。我们的实验表明，我们的框架在这种更通用的情况下胜过了现有的最先进方法。

May, 2022

从多个文档中挖掘共性和特异性用于多文档摘要

本文提出了一种基于文档层次聚类的多文档自动摘要方法，通过提取反映所有文档共性和部分子类特异性的句子生成摘要，从而满足多文档摘要的覆盖和多样性要求。在 DUC'2002-2004 和 Multi-News 数据集上的实验证明了该方法的有效性。

Mar, 2023

基于句子和单词提取的神经摘要

论文提出了一种基于神经网络和连续句子特征的数据驱动型抽取式摘要方法，采用层级文档编码器和基于注意力机制的提取器的通用框架，能够训练不同的摘要模型（提取句子或单词），在大规模语料库上进行实验结果表明，该方法在不需要语言注解的情况下取得了与现有技术相当的效果。

Mar, 2016