一个面向 Web 规模的科学知识探索系统

ACLMay, 2018

一个面向 Web 规模的科学知识探索系统

A Web-scale system for scientific knowledge exploration

Zhihong Shen, Hao Ma, Kuansan Wang

TL;DR本研究提出一种大规模系统，将科学出版物组织成层次化概念结构，建立了包含超过 20 万个概念和 100 万以上关系的跨领域科学概念本体论。

Abstract

To enable efficient exploration of web-scale scientific knowledge, it is necessary to organize scientific publications into a hierarchical concept structure. In this work, we present a large-scale system to (1) i

web-scale scientific knowledge scientific publications concept structure concept hierarchy ontology

发现论文，激发创造

在 Semantic Scholar 中构建文献图谱

通过 NLP 技术构建一个规模巨大的异构图，用于组织已发表的科学文献，并且在 www.semanticscholar.org 上使用此系统以实现语义功能。

May, 2018

无监督从文本和代码构建知识图谱

利用无监督学习方法构建知识图谱，将自然语言概念实体与源代码实体相关联，结合词嵌入、降维和聚类技术的文本概念聚类方法，用于帮助科学家理解、组织和比较开放科学生态系统中的软件，并增强对科学文献的整体理解。

Aug, 2019

通过众包构建概念层次结构

本文提出一种基于众包的层次结构构建系统，包括不确定性建模和用信息增益准则选择问题的方法，实验结果表明该系统具有噪声鲁棒性、高效性和高质量的层次结构。

Apr, 2015

大规模临床本体的语义搜索

本文介绍了一种基于深度学习的方法来构建大型临床本体的语义搜索系统，该方法使用 Triplet-BERT 模型和直接从本体生成训练数据的方法，并在五个真实基准数据集上进行了评估，在自由文本到概念和概念到概念的搜索任务中取得了高结果。这项方法优于所有基线方法。

Jan, 2022

PubGraph: 一个大规模的科学时间知识图谱

本文介绍了 PubGraph，一种大规模的时间知识图谱资源，可用于研究科学进展，并使用三个知识图来提供不同尺度的实验，介绍了新的链接预测基准和两种新的归纳式学习方法，它们更适合 PubGraph，能够在没有明确特征的未见节点上操作，比现有模型表现更好。

Feb, 2023

科学文献中新兴概念的高精度提取

本文提出了一种基于无监督方法的科学文献概念提取方法，通过挖掘后续论文中引用某篇文章的数量，提高了从计算机科学论文语料库中提取概念的精确度，Precision@1000 为 99％。

Jun, 2020

基于深度学习的 “Web of Science” 研究领域层次分类

通过利用抽象、将学术出版物自动分类为专业领域体系结构的一种基于模块化和分布式批量训练的层次分类系统 <discipline-field-subfield>，从而在知识生产和引用间捕捉相互依存的关系，进而更好地对学术出版物进行索引。

Feb, 2023

为本体填充设计的文档结构感知关系图卷积网络

本文研究了文档结构在学习任意文档语料库中概念本体关系方面的作用，所采用的基于超类发现和可解释性的方法，比独立的 R-GCN 模型准确率高 15 个百分点。

Apr, 2021

构建用于机器翻译的大规模知识库

本文研究了支持基于知识的机器翻译（KBMT）的大型本体构建，该本体合并了各种在线词典、语义网络和双语资源，以半自动的方法进行。

Jul, 1994

长篇科学文档的基于话语的无监督摘要

本文提出了一种基于无监督的基于图的排名模型，用于提取科学文献的摘要。我们的方法假定源文档采用两级分层图表示，并利用不对称的位置提示来确定句子的重要性。在 PubMed 和 arXiv 数据集上的结果表明，我们的方法在自动指标和人工评价方面优于强无监督基线。此外，其性能与许多基于监督学习的方法相当。这些结果表明，篇章结构中的模式是确定科学文章重要性的强有力信号。

May, 2020