无监督的多粒度摘要
该研究提出了一种新的整体框架用于无监督的多文档摘要,通过综合度量指标 Subset Representative Index(SRI)平衡了源文件中一部分句子的重要性和多样性,并且经过了大规模实验进行了验证,其结果显示该方法在 ROUGE 得分和多样性度量方面明显优于强基准线,并且多样性对于提高多文档摘要性能至关重要。
Sep, 2023
本文提出了一种基于无监督的基于图的排名模型,用于提取科学文献的摘要。我们的方法假定源文档采用两级分层图表示,并利用不对称的位置提示来确定句子的重要性。在 PubMed 和 arXiv 数据集上的结果表明,我们的方法在自动指标和人工评价方面优于强无监督基线。此外,其性能与许多基于监督学习的方法相当。这些结果表明,篇章结构中的模式是确定科学文章重要性的强有力信号。
May, 2020
我们提出了一种新颖的基于图形的框架,用于摘要会议演讲,完全不需要监督和任何注释。我们的工作结合了多种最近的方法的优点,同时解决了它们的弱点。此外,我们利用最近在 NLP 中应用的字嵌入和图形退化的进展,考虑外部语义知识,并设计了自定义的多样性和信息量度量。在 AMI 和 ICSI 语料库上的实验表明,我们的系统改进了现有技术水平。代码和数据可公开获取,我们的系统可以交互式测试。
May, 2018
开发了一种基于抽象的总结框架,适用于多个异构文档,该框架独立于标记数据。 与现有的多文件总结方法不同,我们的框架处理讲述不同故事的文档,而不是同一主题的文档。 最后,我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体,其中每个文档组都包含大量且多样化的文档,以评估我们的模型与其他基线系统的性能。 我们的实验表明,我们的框架在这种更通用的情况下胜过了现有的最先进方法。
May, 2022
本文提出了通过结合多种特征源进行特征融合的视频摘要算法,该算法在两个基准测试数据集 TVSum 和 SumMe 上取得了最新的研究结果,并对以往的研究方法进行了评估,同时进行误差分析以找出导致分类错误的因素。
May, 2021
本文研究了使用引文图来提高科学论文摘要生成的质量,提出了两种方法:为任务提供简单而低成本的多粒度无监督摘要生成方法 (MUS),以及对大量标记数据具有更准确结果的基于图的监督摘要方法 (GSS),并在公共基准数据集上进行了实验验证以证明方法的有效性。
Dec, 2022
本文提出了一个通用可扩展的引导式摘要框架(GSum),可以有效地将不同种类的外部引导作为输入,通过实验表明了该模型在使用突出显示的句子作为引导时,在 4 个流行的摘要数据集上实现了 ROUGE 的最优性能,同时我们还展示了我们的引导模型可以生成更忠实的摘要,并展示了不同类型的引导所生成的不同摘要,为学习模型提供了一定程度的可控性。
Oct, 2020
该研究提供了一种新的评价未经监督的多文档摘要技术的方法,使用上下文化嵌入和软标记对齐技术对其语义相似性进行评估,并提出了一个可用于引导深度学习模型的奖励函数,其在性能上优于现有的未监督摘要模型。
May, 2020
介绍了事件关键摘要(EKS),它是传统摘要和文档级事件提取的结合,目标是根据文档和提取的事件结构为特定事件生成一个上下文化的摘要。介绍了这一任务的数据集 MUCSUM,包括经典 MUC-4 数据集中所有事件的摘要,以及预训练语言模型和更大前沿模型组成的基准集。通过减少 EKS 到传统摘要或结构转文本的消融实验,我们证明了目标事件的摘要质量会降低,而 MUCSUM 是这一任务的一个稳健的基准。最后,我们对参考摘要和模型摘要进行了人工评估,并对结果进行了详细分析。
Feb, 2024