重温基于质心方法:多文档摘要的坚强基准
通过在句子选择中添加一种束搜索过程和一个质心估计关注模型,我们进一步改进了质心方法,在多个多文档摘要数据集中展示出了改进的结果,包括多语言情景的应用。
Nov, 2023
本文介绍了一种多文档摘要器 MEAD,它使用由主题检测和跟踪系统产生的聚类中心来生成摘要。我们还描述了基于句子效用和包容性的两种新技术,这些技术已应用于单个和多个文档摘要的评估。最后,我们描述了两项用户研究,测试了我们的多文档摘要模型。
May, 2000
本文提出了一种简单的预训练目标:选择每个文档簇的基于 ROUGE 的中心点作为摘要,以用于多文件摘要的预训练。通过多个 MDS 数据集的零 - shot 和完全监督实验,我们证明了我们的 Centrum 模型比最先进的模型更好或具有可比性。
Aug, 2022
本文提出了一种针对新闻摘要自动提取的无监督方法,该方法采用神经网络模型并结合基于图论的排名算法,使用 BERT 模型来更好地捕获句子意义,显著超过强基线的效果。
Jun, 2019
本文提出了一种无监督基于质心的文档级重构框架,利用分布式词袋模型来选择摘要句以最小化摘要和文档之间的重构误差,并应用句子选择和波束搜索来进一步提高模型性能。针对两个不同的数据集实验结果表明,与现有基线相比,我们的模型表现出显著的性能提升。
Oct, 2017
该研究旨在开发一种在多文档环境中的提取式摘要生成器,使用基于排名的句子选择方法以及连续向量表示和关键短语,并提出了一种模型来解决摘要连贯性问题,以提高可读性。实验结果表明,在信息量和连贯性方面,该方法相对于现有方法有了显著的改进。
Jun, 2017
本文提出了基于 ILP 框架提取每个文档集的一组候选摘要,然后利用排名 SVM 进行摘要重新排名的方法,结果通过 DUC 基准数据集验证了方法的有效性和鲁棒性。
Jul, 2015
开发了一种基于抽象的总结框架,适用于多个异构文档,该框架独立于标记数据。 与现有的多文件总结方法不同,我们的框架处理讲述不同故事的文档,而不是同一主题的文档。 最后,我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体,其中每个文档组都包含大量且多样化的文档,以评估我们的模型与其他基线系统的性能。 我们的实验表明,我们的框架在这种更通用的情况下胜过了现有的最先进方法。
May, 2022
本文提出了一种基于文档层次聚类的多文档自动摘要方法,通过提取反映所有文档共性和部分子类特异性的句子生成摘要,从而满足多文档摘要的覆盖和多样性要求。在 DUC'2002-2004 和 Multi-News 数据集上的实验证明了该方法的有效性。
Mar, 2023
论文提出了一种基于神经网络和连续句子特征的数据驱动型抽取式摘要方法,采用层级文档编码器和基于注意力机制的提取器的通用框架,能够训练不同的摘要模型(提取句子或单词),在大规模语料库上进行实验结果表明,该方法在不需要语言注解的情况下取得了与现有技术相当的效果。
Mar, 2016