科学文献中新兴概念的高精度提取

SIGIRJun, 2020

科学文献中新兴概念的高精度提取

High-Precision Extraction of Emerging Concepts from Scientific Literature

Daniel King, Doug Downey, Daniel S. Weld

TL;DR本文提出了一种基于无监督方法的科学文献概念提取方法，通过挖掘后续论文中引用某篇文章的数量，提高了从计算机科学论文语料库中提取概念的精确度，Precision@1000 为 99％。

Abstract

Identification of new concepts in scientific literature can help power faceted search, scientific trend analysis, knowledge-base construction, and more, but current methods are lacking. Manual identification cannot keep up with the torrent of new publications, while the →

concept extraction scientific literature unsupervised approach precision computer science

发现论文，激发创造

科学文献元数据提取的新方法

本研究提出了一种自动、准确和灵活的算法，能够从数字化科学文章中直接提取各种元数据，包括基本文档元数据、结构化全文和参考文献部分。该算法通过在大规模、多样化的数据集上训练监督和无监督机器学习算法实现，具有较高的精度，适用于分析异构文档集合。与其他类似解决方案的比较也证明了我们的算法在大多数元数据类型上表现优于竞争对手。

Oct, 2017

基于自然语言处理的原始研究文章分类之外

本研究提出了一种针对未知类别的科学文献的文本分类的新方法，使用自然语言处理技术。该研究利用预训练的语言模型（特别是 SciBERT）从 ArXiv 数据集的摘要中提取有意义的表示。文本分类使用 K-Means 算法进行，并根据 Silhouette 得分确定最佳聚类数。结果表明，所提出的方法比传统的 arXiv 标签系统更有效地捕捉主题信息，从而改善了文本分类。该方法为科学研究文献快速增长的领域提供了更好的导航和推荐系统的潜力。

Sep, 2023

应用无监督关键词方法于从出院记录中提取出的概念

在这项研究中，使用临床自然语言处理技术解决了识别和映射标准术语的问题。提出了一种用于提取临床文本中关键概念的 TF-IDF 快捷方法，并使用基于 transformer 的模型设计了两种下游任务，结果表明 SciBERT 模型在结合提出的方法时具有优越性，并为临床笔记的关键短语提取提供了洞察。

Mar, 2023

科学论文大型单主题文献库的交互式蒸馏

利用机器学习技术构建针对科学文献的目标数据集工具，并通过主题建模进行文献综述，应用于机器学习领域。

Sep, 2023

基于弱监督深度学习的生物医学文献大规模细粒度语义索引

本研究提出了一种基于深度学习的自动化主题注解细化方法，通过在文章摘要中的概念出现来进行弱监督，发现概念出现是自动化主题注解细化的强有力依据，还可以与基于字典的启发式算法相结合以进一步提高准确率。

Jan, 2023

生成科学范式的摘要

使用文献计量学文本挖掘和摘要技术对科学文献进行自动生成，利用引文生成摘要，通过 C-LexRank 对单篇文章进行摘要提取，同时拓展到一系列科学文献的摘要提取和分析，证明引文是创建摘要的一种独特信息资源。

Feb, 2014

无监督从文本和代码构建知识图谱

利用无监督学习方法构建知识图谱，将自然语言概念实体与源代码实体相关联，结合词嵌入、降维和聚类技术的文本概念聚类方法，用于帮助科学家理解、组织和比较开放科学生态系统中的软件，并增强对科学文献的整体理解。

Aug, 2019

从文本中提取数学概念

本文探讨了使用四种不同的术语提取器从数学范畴论的英文文本中提取数学实体的系统，作为构建数学知识图的第一步。研究还提供了两个开放数据集，以支持在数学领域进行研究。

Aug, 2022

一个面向 Web 规模的科学知识探索系统

本研究提出一种大规模系统，将科学出版物组织成层次化概念结构，建立了包含超过 20 万个概念和 100 万以上关系的跨领域科学概念本体论。

May, 2018

科技文献中的关键词提取

本文介绍了如何从科学出版物的摘要中提取关键词和关键短语，以便于下游任务，如知识图谱建设、文本挖掘和学科分类。

Jul, 2022