基于分布式词袋模型的多文档摘要
本文提出基于质心的模型在文本摘要中的应用,并使用贪心算法来寻找最佳摘要,同时通过选择每个文档中的少量句子来扩展到更大的文本集合。在 DUC2004 数据集中的实验结果表明,该方法能得到与复杂最新方法相当的效果。
Aug, 2017
开发了一种基于抽象的总结框架,适用于多个异构文档,该框架独立于标记数据。 与现有的多文件总结方法不同,我们的框架处理讲述不同故事的文档,而不是同一主题的文档。 最后,我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体,其中每个文档组都包含大量且多样化的文档,以评估我们的模型与其他基线系统的性能。 我们的实验表明,我们的框架在这种更通用的情况下胜过了现有的最先进方法。
May, 2022
本文提出了一种针对新闻摘要自动提取的无监督方法,该方法采用神经网络模型并结合基于图论的排名算法,使用 BERT 模型来更好地捕获句子意义,显著超过强基线的效果。
Jun, 2019
该研究提出了一种新的整体框架用于无监督的多文档摘要,通过综合度量指标 Subset Representative Index(SRI)平衡了源文件中一部分句子的重要性和多样性,并且经过了大规模实验进行了验证,其结果显示该方法在 ROUGE 得分和多样性度量方面明显优于强基准线,并且多样性对于提高多文档摘要性能至关重要。
Sep, 2023
本文提出了一种基于无监督的基于图的排名模型,用于提取科学文献的摘要。我们的方法假定源文档采用两级分层图表示,并利用不对称的位置提示来确定句子的重要性。在 PubMed 和 arXiv 数据集上的结果表明,我们的方法在自动指标和人工评价方面优于强无监督基线。此外,其性能与许多基于监督学习的方法相当。这些结果表明,篇章结构中的模式是确定科学文章重要性的强有力信号。
May, 2020
该研究旨在开发一种在多文档环境中的提取式摘要生成器,使用基于排名的句子选择方法以及连续向量表示和关键短语,并提出了一种模型来解决摘要连贯性问题,以提高可读性。实验结果表明,在信息量和连贯性方面,该方法相对于现有方法有了显著的改进。
Jun, 2017
本文提出基于神经网络的 attention 模型来对长文档进行自动摘要。通过追踪文档主题之间的切换,模型实现了更好的文档理解效果,并在两个大型数据集上取得了最优表现。
Oct, 2016
本文介绍了一种多文档摘要器 MEAD,它使用由主题检测和跟踪系统产生的聚类中心来生成摘要。我们还描述了基于句子效用和包容性的两种新技术,这些技术已应用于单个和多个文档摘要的评估。最后,我们描述了两项用户研究,测试了我们的多文档摘要模型。
May, 2000
通过在句子选择中添加一种束搜索过程和一个质心估计关注模型,我们进一步改进了质心方法,在多个多文档摘要数据集中展示出了改进的结果,包括多语言情景的应用。
Nov, 2023