无监督从文本和代码构建知识图谱

KDDAug, 2019

无监督从文本和代码构建知识图谱

Unsupervised Construction of Knowledge Graphs From Text and Code

Kun Cao, James Fairbanks

TL;DR利用无监督学习方法构建知识图谱，将自然语言概念实体与源代码实体相关联，结合词嵌入、降维和聚类技术的文本概念聚类方法，用于帮助科学家理解、组织和比较开放科学生态系统中的软件，并增强对科学文献的整体理解。

Abstract

The scientific literature is a rich source of information for data mining with conceptual knowledge graphs; the open science movement has enriched this literature with complementary →

conceptual knowledge graphs open science unsupervised learning word embedding source code

发现论文，激发创造

从文本资源自动构建算法知识图谱的方法

该研究介绍了一种从非结构化数据中自动开发算法问题的知识图谱方法，通过构建算法知识图谱可以更清晰广泛地捕获信息，提供算法元数据的额外上下文和可解释性。

May, 2022

从代码和文本中自动生成科学可计算模型，并由人工辅助进行筛选

开发了一个自动创建和人工协助维护可计算科学模型知识图谱的系统，将代码和文档中的概念和方程提取出来进行语义注释，将其转换为可执行的 Python 函数，并组合成复杂的工作流程以回答领域相关问题，实验结果基于来自 NASA 超音速空气动力学网站的数据集。

Jan, 2022

在 Semantic Scholar 中构建文献图谱

通过 NLP 技术构建一个规模巨大的异构图，用于组织已发表的科学文献，并且在 www.semanticscholar.org 上使用此系统以实现语义功能。

May, 2018

无监督知识图谱构建和面向事件的知识注入在科学自然语言推理中的应用

通过引入科学知识图谱来使预训练模型适应科学领域并提出了无监督构建科学知识图谱的方法，进一步提出了以事件为中心的知识注入方法，实验结果表明，方法达到了最先进的性能并具有效果和可靠性。

Oct, 2022

CodeKGC: 基于代码的生成式知识图谱构建模型

通过代码语言模型生成三元组以构建语义结构明确的知识图谱，并使用增强理由生成法提高知识提取能力，实验结果表明该方法在基准数据集上取得优异表现。

Apr, 2023

基于开放研究知识图谱的科学论文知识获取方法

使用计算机辅助工具的知识获取，构建 Open Research Knowledge Graph 并整理自科研论文中提取的关键见解。

Aug, 2023

使用基于图结构的缓存实现源代码的开放式词汇学习

该文研究如何通过引入图结构缓存来解决程序源代码中可能遇到的新单词识别和定位的问题，并结合最新的基于图神经网络模型的方法，提高了模型在代码补全和变量命名任务上的性能。

Oct, 2018

一个无监督的联合系统：从知识图谱和语义解析生成文本

通过无监督文本生成的方法，本研究旨在解决知识图谱不同领域自动转换的问题，同时，为了避免短缺的领域特定数据对自动转换造成的影响，本研究还提出了一种无监督语义分析的方法。

Apr, 2019

长篇科学文档的基于话语的无监督摘要

本文提出了一种基于无监督的基于图的排名模型，用于提取科学文献的摘要。我们的方法假定源文档采用两级分层图表示，并利用不对称的位置提示来确定句子的重要性。在 PubMed 和 arXiv 数据集上的结果表明，我们的方法在自动指标和人工评价方面优于强无监督基线。此外，其性能与许多基于监督学习的方法相当。这些结果表明，篇章结构中的模式是确定科学文章重要性的强有力信号。

May, 2020

一个面向 Web 规模的科学知识探索系统

本研究提出一种大规模系统，将科学出版物组织成层次化概念结构，建立了包含超过 20 万个概念和 100 万以上关系的跨领域科学概念本体论。

May, 2018