通过 NLP 技术构建一个规模巨大的异构图,用于组织已发表的科学文献,并且在 www.semanticscholar.org 上使用此系统以实现语义功能。
May, 2018
利用无监督学习方法构建知识图谱,将自然语言概念实体与源代码实体相关联,结合词嵌入、降维和聚类技术的文本概念聚类方法,用于帮助科学家理解、组织和比较开放科学生态系统中的软件,并增强对科学文献的整体理解。
Aug, 2019
本文提出一种基于众包的层次结构构建系统,包括不确定性建模和用信息增益准则选择问题的方法,实验结果表明该系统具有噪声鲁棒性、高效性和高质量的层次结构。
Apr, 2015
本文介绍了一种基于深度学习的方法来构建大型临床本体的语义搜索系统,该方法使用 Triplet-BERT 模型和直接从本体生成训练数据的方法,并在五个真实基准数据集上进行了评估,在自由文本到概念和概念到概念的搜索任务中取得了高结果。这项方法优于所有基线方法。
Jan, 2022
本文介绍了 PubGraph,一种大规模的时间知识图谱资源,可用于研究科学进展,并使用三个知识图来提供不同尺度的实验,介绍了新的链接预测基准和两种新的归纳式学习方法,它们更适合 PubGraph,能够在没有明确特征的未见节点上操作,比现有模型表现更好。
Feb, 2023
本文提出了一种基于无监督方法的科学文献概念提取方法,通过挖掘后续论文中引用某篇文章的数量,提高了从计算机科学论文语料库中提取概念的精确度,Precision@1000 为 99%。
Jun, 2020
通过利用抽象、将学术出版物自动分类为专业领域体系结构的一种基于模块化和分布式批量训练的层次分类系统 <discipline-field-subfield>,从而在知识生产和引用间捕捉相互依存的关系,进而更好地对学术出版物进行索引。
本文研究了文档结构在学习任意文档语料库中概念本体关系方面的作用,所采用的基于超类发现和可解释性的方法,比独立的 R-GCN 模型准确率高 15 个百分点。
Apr, 2021
本文研究了支持基于知识的机器翻译(KBMT)的大型本体构建,该本体合并了各种在线词典、语义网络和双语资源,以半自动的方法进行。
Jul, 1994
本文提出了一种基于无监督的基于图的排名模型,用于提取科学文献的摘要。我们的方法假定源文档采用两级分层图表示,并利用不对称的位置提示来确定句子的重要性。在 PubMed 和 arXiv 数据集上的结果表明,我们的方法在自动指标和人工评价方面优于强无监督基线。此外,其性能与许多基于监督学习的方法相当。这些结果表明,篇章结构中的模式是确定科学文章重要性的强有力信号。
May, 2020