SciBERTSUM: 面向科学文档的提取式摘要
本文探讨了利用 Transformer-based 系统概括多领域科学研究论文的问题,并设计了两种不同类型的概述手段,即 LaySumm 和 LongSumm,使用 ROUGE 指标有效评估了本文系统的优越性。
Jan, 2021
通过研究,本文在科学文章的有监督摘要提取方面展现了基于仅使用文档内文本的简单序列标记模型对简单分类模型的高效结果,并对句子级特征进行了最小化改进。通过进一步分析,我们展示了序列模型依赖文档结构且取决于学科领域的潜力。
Apr, 2022
本文介绍了一种新的数据集,用于总结计算机科学出版物,展示了利用神经句子编码和传统的总结功能来开发模型的方式,并表明即使在传统的科学领域中,对句子的编码以及他们的本地和全局背景进行编码的模型也有很好的性能,并实现了明显优于已经建立的基准方法的结果。
Jun, 2017
本文提出了 BERTSUM,即 BERT 的摘要变体,通过在 CNN / Dailymail 数据集上的评估证明其在提取性摘要方面超越了现有的最佳系统。
Mar, 2019
开发了一种基于抽象的总结框架,适用于多个异构文档,该框架独立于标记数据。 与现有的多文件总结方法不同,我们的框架处理讲述不同故事的文档,而不是同一主题的文档。 最后,我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体,其中每个文档组都包含大量且多样化的文档,以评估我们的模型与其他基线系统的性能。 我们的实验表明,我们的框架在这种更通用的情况下胜过了现有的最先进方法。
May, 2022
本文提出了一种能够利用文献中引言信息作为指针提取关键信息的提取式文本摘要方法,该方法在两个大规模的科学文献长篇摘要数据集上获得了显著的 Rouge 分数和人类评估的整体完整性和连贯性相较于传统 baseline 和现有先进技术的提升。
Jun, 2022
本文探讨如何在低资源情况下,使用深度神经网络等技术进行长篇法律文件的自动摘要,本文提出了一种基于 GPT-2 的算法,基于语言模型的困惑度,识别出最具有表现力的句子,在提取摘要时提供有效支持,并且该方法胜过了全球其他对手的显著度检测基线。
Mar, 2021
本文提出了一种基于无监督的基于图的排名模型,用于提取科学文献的摘要。我们的方法假定源文档采用两级分层图表示,并利用不对称的位置提示来确定句子的重要性。在 PubMed 和 arXiv 数据集上的结果表明,我们的方法在自动指标和人工评价方面优于强无监督基线。此外,其性能与许多基于监督学习的方法相当。这些结果表明,篇章结构中的模式是确定科学文章重要性的强有力信号。
May, 2020
本文提出了一种新颖的神经网络抽取式文档摘要模型,结合整个文档的全局上下文和当前主题内的局部上下文;我们在 Pubmed 和 arXiv 两个科学论文数据集上评估了该模型,并在 ROUGE-1,ROUGE-2 和 METEOR 分数上优于以前的工作,包括抽象模型和提取模型;更为惊讶的是,消融分析表明,我们的模型的好处似乎仅来自于对局部上下文的建模,即使对于最长的文档。
Sep, 2019
本文采用神经抽象总结的方法来产生长文档的抽象总结,该方法使用一个简单的抽取步骤来生成一个摘要,然后将其用作相关信息的转换器语言模型的条件,然后生成一个摘要。我们展示了这个抽取步骤显著地改善了总结结果,而且这种方法产生的抽象总结比以前采用复制机制的工作能够实现更高的浸润得分。
Sep, 2019