生成科学范式的摘要
本文介绍了一种新的数据集,用于总结计算机科学出版物,展示了利用神经句子编码和传统的总结功能来开发模型的方式,并表明即使在传统的科学领域中,对句子的编码以及他们的本地和全局背景进行编码的模型也有很好的性能,并实现了明显优于已经建立的基准方法的结果。
Jun, 2017
通过研究,本文在科学文章的有监督摘要提取方面展现了基于仅使用文档内文本的简单序列标记模型对简单分类模型的高效结果,并对句子级特征进行了最小化改进。通过进一步分析,我们展示了序列模型依赖文档结构且取决于学科领域的潜力。
Apr, 2022
提出一种新的上下文化摘要方法,该方法可以根据含有引用文献的句子(称为 “引文”)生成信息丰富的摘要,概述了引文相关引用位置的文献内容,该方法提取和建模论文的引文,检索相关的引用文献段落,并生成针对每个引文的抽象摘要。
Nov, 2023
通过整合源文章中引用的外部论文,本研究旨在提高语言模型在生物医学抽象摘要中的表现。我们提出了一种基于注意力的引文聚合模型,该模型整合了引文论文中的领域特定知识,使神经网络能够利用论文内容和引文论文的相关知识来生成摘要。此外,我们构建并发布了一个大规模的生物医学摘要数据集,为我们的研究奠定了基础。广泛的实验表明,我们的模型优于现有方法,在生物医学抽象文本摘要中取得了显著的改进。
Oct, 2023
本文提出了一种基于无监督的基于图的排名模型,用于提取科学文献的摘要。我们的方法假定源文档采用两级分层图表示,并利用不对称的位置提示来确定句子的重要性。在 PubMed 和 arXiv 数据集上的结果表明,我们的方法在自动指标和人工评价方面优于强无监督基线。此外,其性能与许多基于监督学习的方法相当。这些结果表明,篇章结构中的模式是确定科学文章重要性的强有力信号。
May, 2020
本文介绍了针对文本数据的关键词提取和文本摘要的处理方法,介绍了一种基于 TextRank 算法的无监督学习方法,在其基础上提高了算法的效率,并针对其忽略了不同部分的语义相似性进行了改进。此外,还开发了一种基于该框架的主题聚类算法,可单独使用或作为生成摘要的一部分来解决文本覆盖问题。
Dec, 2022
本文探讨了利用 Transformer-based 系统概括多领域科学研究论文的问题,并设计了两种不同类型的概述手段,即 LaySumm 和 LongSumm,使用 ROUGE 指标有效评估了本文系统的优越性。
Jan, 2021
本文研究了使用引文图来提高科学论文摘要生成的质量,提出了两种方法:为任务提供简单而低成本的多粒度无监督摘要生成方法 (MUS),以及对大量标记数据具有更准确结果的基于图的监督摘要方法 (GSS),并在公共基准数据集上进行了实验验证以证明方法的有效性。
Dec, 2022
本论文提出了一种基于引用图的摘要模型 CGSum,相对于基于输入文档内容进行摘要的方法,它可以更好的理解科技论文的含义并产生高质量的摘要,同时构建了一个包含 141K 篇不同领域的科技论文的数据集 Semantic Scholar Network(SSN),这个数据集构成了一个大型的连接引用图。研究结果表明,引用图对于理解论文内容并产生高质量的摘要十分关键。
Apr, 2021
通过分析他人对目标文章贡献的观点以及引文摘要网络的聚类方法,我们提出了一种用于凝练文章的模型,该模型可进一步用于概括一个整体研究领域,从而帮助研究人员快速了解新研究领域。
Jul, 2008