利用词嵌入和领域知识为科学摘要加入文献引用语境
提出一种新的上下文化摘要方法,该方法可以根据含有引用文献的句子(称为 “引文”)生成信息丰富的摘要,概述了引文相关引用位置的文献内容,该方法提取和建模论文的引文,检索相关的引用文献段落,并生成针对每个引文的抽象摘要。
Nov, 2023
提出一种利用引文语境和文章话语模型的科技论文摘要方法,通过为每个引文提供上下文来克服引文标题与文章内容不一致的问题,同时借助文章的话语特征来产生更好的摘要。对 TAC2014 科技论文摘要数据集的结果表明,该方法实现了超过 30% 的性能提升,适用于其他领域。
Apr, 2017
探究在科学论文中预测引用价值的句子时,上下文作用的重要性,利用双向 LSTM 模型解决了该问题,并提出了一个新的基准数据集以及文档级别的训练 / 测试分配,通过误差分析揭示了上下文在预测引用价值方面的重要作用。
Apr, 2021
本文提出了一种使用语言建模的无监督方法来对句子进行摘要,该方法使用了两种语言模型,并使用专业领域的语言模型来保持持续的上下文匹配,同时保持输出的流畅性,实验表明,该方法具有良好的性能。
Jul, 2019
通过整合源文章中引用的外部论文,本研究旨在提高语言模型在生物医学抽象摘要中的表现。我们提出了一种基于注意力的引文聚合模型,该模型整合了引文论文中的领域特定知识,使神经网络能够利用论文内容和引文论文的相关知识来生成摘要。此外,我们构建并发布了一个大规模的生物医学摘要数据集,为我们的研究奠定了基础。广泛的实验表明,我们的模型优于现有方法,在生物医学抽象文本摘要中取得了显著的改进。
Oct, 2023
本论文提出了一种基于引用图的摘要模型 CGSum,相对于基于输入文档内容进行摘要的方法,它可以更好的理解科技论文的含义并产生高质量的摘要,同时构建了一个包含 141K 篇不同领域的科技论文的数据集 Semantic Scholar Network(SSN),这个数据集构成了一个大型的连接引用图。研究结果表明,引用图对于理解论文内容并产生高质量的摘要十分关键。
Apr, 2021
本文提出了一种基于无监督的基于图的排名模型,用于提取科学文献的摘要。我们的方法假定源文档采用两级分层图表示,并利用不对称的位置提示来确定句子的重要性。在 PubMed 和 arXiv 数据集上的结果表明,我们的方法在自动指标和人工评价方面优于强无监督基线。此外,其性能与许多基于监督学习的方法相当。这些结果表明,篇章结构中的模式是确定科学文章重要性的强有力信号。
May, 2020
使用文献计量学文本挖掘和摘要技术对科学文献进行自动生成,利用引文生成摘要,通过 C-LexRank 对单篇文章进行摘要提取,同时拓展到一系列科学文献的摘要提取和分析,证明引文是创建摘要的一种独特信息资源。
Feb, 2014
本文通过经验分析,将提到的未知名称根据新奇性和域外评估进行分离,并证明了最新情境嵌入模型在发现前所未见的名称方面特别有益,尤其是在域外评估中。
Jan, 2020
本文介绍了一种新的数据集,用于总结计算机科学出版物,展示了利用神经句子编码和传统的总结功能来开发模型的方式,并表明即使在传统的科学领域中,对句子的编码以及他们的本地和全局背景进行编码的模型也有很好的性能,并实现了明显优于已经建立的基准方法的结果。
Jun, 2017