构建 PubMed 知识图谱

May, 2020

Building a PubMed knowledge graph

Jian Xu, Sunkyu Kim, Min Song, Minbyul Jeong, Donghyeon Kim...

TL;DR通过多源数据的整合与深度学习生物实体提取方法，我们构建了一个 PubMed 知识图谱（PKG），可用于衡量学术影响、知识使用和传递，以及通过与生物实体的联系，帮助我们对作者和机构进行档案概述。

Abstract

pubmed is an essential resource for the medical domain, but useful concepts are either difficult to extract or are ambiguated, which has significantly hindered knowledge discovery. To address this issue, we const

pubmed knowledge discovery bio-entity extraction author name disambiguation knowledge graph

发现论文，激发创造

生物医学关系抽取方法和模型比较及其在知识图谱构建中的应用

本研究介绍比较了在构建知识图谱中用于从生物医学文献中提取关系方面的一些基于规则和基于机器学习的方法，例如：朴素贝叶斯、随机森林、DistilBERT、PubMedBERT、T5、SciFive 等，通过实验检测不同方法的适用性和鲁棒性。结果表明，基于 transformers 的模型（如 PubMedBERT）在处理小型和不平衡的数据时表现较好。其中，在平衡数据上，PubMedBERT 模型的 F1 得分最高（0.92）。

Jan, 2022

BioBLP: 多模态生物医学知识图谱学习的模块化框架

提出了一种用于学习具有实体属性的知识图谱嵌入的模块化框架，其中模块可以对不同模态的属性数据进行编码，并且支持具有缺失属性的实体。在使用包含大约两百万三元组的生物医学 KG 进行训练和评估时，发现在给定低程度实体的情况下，与不考虑属性数据的基准方法相比，该方法在药物 - 蛋白质相互作用预测任务中的表现较好。

Jun, 2023

基于 BERT 的临床知识提取用于生物医学知识图谱构建和分析

本研究提出了使用 BERT 模型和条件随机场层从临床记录中提取和分析生物医学知识的端到端方法，包括自然语言处理模型用于命名实体识别和关系提取等步骤，可以用于构建医学知识图谱并用于问题解答。实验结果表明，该方法对于 505 位真实患者的生物医学非结构化临床记录的命名实体识别和关系提取的准确率分别为 90.7% 和 88%。

Apr, 2023

应用 BioBERT 从生物医学文献中提取基因与疾病的胚系关联以构建知识图谱

这篇论文介绍了 SimpleGermKG，一种自动构建知识图谱的方法，该方法连接了生殖祖细胞基因和疾病。通过使用生物医学语料库上预训练的 BERT 模型 BioBERT，提取基因和疾病，并提出本体基于和规则基于算法对医学术语进行标准化和消歧。为了表示语义关系，采用了部分 - 整体关系方法将每个实体与其数据源连接，并以图形表示形式进行可视化。最后，讨论了知识图谱的应用、限制和未来对生殖细胞语料库的研究挑战，并展示了结果的图形可视化。

Sep, 2023

使用知识优化生物医学预训练语言模型

提出 KeBioLM 这一生物医学语言 pretrained language model，该模型明确利用了来自 UMLS UMLS knowledge bases 知识库的知识，取得了名词实体识别和关系提取的不错效果。

Apr, 2021

BEKG：一个建筑环境知识图谱

通过建立知识图谱，在建设领域超过 80,000 篇论文摘要上构建了超过 200,000 个高质量的关系和实体，用于展示各种实体之间的关系的自我开发可视化系统。

Nov, 2022

癌症生物标志物发现的生物医学知识图谱

本文描述了如何构建一个特定领域的知识图谱，以帮助癌症生物标志物的发现和查询，并使用语义技术和信息抽取方法集成相关领域的知识和数据，提供交互式解释和问题回答。

Feb, 2023

DiscoverPath: 一种面向生物医学研究的知识精炼与检索系统

基于知识图谱的论文搜索引擎 DiscoverPath 可以提供生物医学研究的高效文章检索和跨学科知识探索，通过提取术语和关系创建知识图谱，并提供查询建议和可视化界面，以增强用户体验。

Sep, 2023

Know2BIO: 演进中的生物医学知识图谱全面双视角基准

我们提出了一个面向生物医学领域的异构知识图谱基准测试平台 Know2BIO，它从 30 个不同的数据源中整合数据，并捕捉了 11 个生物医学类别中的复杂关系。通过在 Know2BIO 上评估知识图谱表示模型，我们展示了其在生物医学领域中作为知识图谱表示学习基准测试的有效性。

Oct, 2023

多模式蛋白知识图谱构建及应用

本文介绍了 ProteinKG65，一个专门用于蛋白质科学的知识图谱，它基于基因本体论和 Uniprot 知识库，并整合了多种知识，主要旨在将基因本体论的知识应用于蛋白质功能及结构预测，文中还展示了 ProteinKG65 的潜在应用。

May, 2022