通过判别式摘要排序的多文档摘要
该研究提出了一种新的整体框架用于无监督的多文档摘要,通过综合度量指标 Subset Representative Index(SRI)平衡了源文件中一部分句子的重要性和多样性,并且经过了大规模实验进行了验证,其结果显示该方法在 ROUGE 得分和多样性度量方面明显优于强基准线,并且多样性对于提高多文档摘要性能至关重要。
Sep, 2023
开发了一种基于抽象的总结框架,适用于多个异构文档,该框架独立于标记数据。 与现有的多文件总结方法不同,我们的框架处理讲述不同故事的文档,而不是同一主题的文档。 最后,我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体,其中每个文档组都包含大量且多样化的文档,以评估我们的模型与其他基线系统的性能。 我们的实验表明,我们的框架在这种更通用的情况下胜过了现有的最先进方法。
May, 2022
本研究针对多文档摘要提出了一种基于整数线性规划模型的生成式摘要的方法,实验结果表明,该方法在信息内容和可读性方面均优于基线和先进的抽取式摘要器,且胜过最近提出的生成式摘要技术。
Sep, 2016
提出了一种用于单文档大意提取的全新算法,能够通过强化学习目标全局优化 ROUGE 评估指标,并在 CNN 和 DailyMail 数据集上进行了实验,展示它在人工和自动评估中均优于现有抽取和生成式提取系统的神经大意提取模型。
Feb, 2018
该研究提出了一种无监督的自动句子摘要方法,通过语言建模和语义相似度指标来优化摘要质量,从而在 ROUGE 分数方面达到了新的最高水平,同时强调未来的评估应该按输出长度分组。
May, 2020
自动摘要是降低文本文档长度的过程,以生成概述,保留原始文档的最重要的要点。我们通过推荐图像和生成包含关联和情感的意见摘要,研究了两个问题。我们使用概率模型和词相似性启发式方法生成图像标题和提取关键短语,并借助相关反馈机制重新排序这些关键短语。我们使用 Rank Aggregation 和相关反馈方法来改进图像检索,同时我们还提出一组子模复杂函数用于意见摘要,以平衡压缩需求和情感检测需求,生成和文档情感和摘要情感之间有良好相关性且 ROUGE 得分优秀的摘要。我们还比较了所提出的子模复杂函数的性能。
May, 2024
本文提出了一种基于无监督的基于图的排名模型,用于提取科学文献的摘要。我们的方法假定源文档采用两级分层图表示,并利用不对称的位置提示来确定句子的重要性。在 PubMed 和 arXiv 数据集上的结果表明,我们的方法在自动指标和人工评价方面优于强无监督基线。此外,其性能与许多基于监督学习的方法相当。这些结果表明,篇章结构中的模式是确定科学文章重要性的强有力信号。
May, 2020
论文提出了 CrisisFACTS 追踪,该追踪致力于解决多流事件追踪领域中的诸多挑战,运用整数线性规划、最大边际相关性等框架,以及各种提取事实的方法,最终探讨了其中的优劣。
Feb, 2023
本文介绍了一种名为 Ranksum 的基于多维句子特征排名融合的单文本抽取式摘要方法,通过提取每个句子的主题信息、语义内容、显著关键词和位置,然后在无监督的方式下使用加权融合四个分数,将句子按照重要性进行排序。该方法利用概率主题模型确定主题排名,使用句子嵌入来捕捉语义信息,通过 Siamese 网络生成抽象句子表示,并利用图论方法找到文档中的重要关键词和相关句子排名,在摘要中采用基于二元组、三元组和句子嵌入的句子新颖性度量来消除冗余句子,最后融合所有特征计算出文档中每个句子的最终得分。实验结果表明,该方法在公开的 CNN/DailyMail 和 DUC 2002 摘要数据集上优于其他现有最先进的摘要方法。
Feb, 2024