研究了两种新策略以提高自动抽取摘要的句子相似度估计,其中对比学习优化了文本级目标,同时使用互相学习增强句子相似度估计与句子重要性排名之间的关系。实验结果显示了策略的有效性。
Feb, 2023
通过引入三种辅助预训练任务,从而以自监督的方式学习捕捉文档级上下文,进一步改善目前的提取式摘要模型,并在广泛使用的 CNN / DM 数据集上进行的实验验证了所提出的辅助任务的有效性。此外,我们显示出,在预训练后,一个由简单构建块组成的干净模型可以胜过之前精心设计的最先进模型。
Jun, 2019
通过语义文本匹配任务范式,本论文提出了一种新的神经抽取式摘要系统构建方法。经过与原有抽取式摘要方法数据集的实验对比,该方法取得了更好的抽取结果,并通过对 CNN / DailyMail 数据集的实验,创造了 44.41 的新高水平。我们相信,这种基于匹配的摘要框架的潜力还未完全被利用。
Apr, 2020
本文提出了一种基于上下文概率比较的新框架来解决语句相似度计算中受限于有标签数据大小以及无监督语言建模中训练和测试之间的差距的两大挑战,能在无监督学习中生成高质量语义相似性分数数据集并在不同数据集中显著提高了现有基线的性能。
May, 2021
开发了一种基于抽象的总结框架,适用于多个异构文档,该框架独立于标记数据。 与现有的多文件总结方法不同,我们的框架处理讲述不同故事的文档,而不是同一主题的文档。 最后,我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体,其中每个文档组都包含大量且多样化的文档,以评估我们的模型与其他基线系统的性能。 我们的实验表明,我们的框架在这种更通用的情况下胜过了现有的最先进方法。
May, 2022
提出了一种使用分布式单词表示和领域知识从参考论文中提取适当上下文的无监督模型,评估结果表明其明显优于现有技术,并且还演示了上下文化方法提高科学文章引用摘要的有效性。
May, 2017
通过将抽取和生成的方法相结合,利用生成模型提高了抽取式摘要的简洁性和可读性。本研究提出了上下文感知的重写方法,通过 group-tag alignments 将传统的抽取方式转化为生成方式,取得了显著的 ROUGE 分数提升。
Jul, 2022
论文提出了一种基于神经网络和连续句子特征的数据驱动型抽取式摘要方法,采用层级文档编码器和基于注意力机制的提取器的通用框架,能够训练不同的摘要模型(提取句子或单词),在大规模语料库上进行实验结果表明,该方法在不需要语言注解的情况下取得了与现有技术相当的效果。
Mar, 2016
本文探讨了在提取式摘要中基于全文进行 contextualized rewriting,将其形式化为 seq2seq 问题,引入 group tag 作为解决方案来建立关联,通过基于内容的寻址方法识别提取式摘要,结果表明我们的方法明显优于非上下文的重写系统,无需采用强化学习,在多个提取式摘要生成器上显示出显着提高的 ROUGE 分数。
Jan, 2021
我们提出了一种新颖的基于图形的框架,用于摘要会议演讲,完全不需要监督和任何注释。我们的工作结合了多种最近的方法的优点,同时解决了它们的弱点。此外,我们利用最近在 NLP 中应用的字嵌入和图形退化的进展,考虑外部语义知识,并设计了自定义的多样性和信息量度量。在 AMI 和 ICSI 语料库上的实验表明,我们的系统改进了现有技术水平。代码和数据可公开获取,我们的系统可以交互式测试。
May, 2018