构建 PubMed 知识图谱
本研究介绍比较了在构建知识图谱中用于从生物医学文献中提取关系方面的一些基于规则和基于机器学习的方法,例如:朴素贝叶斯、随机森林、DistilBERT、PubMedBERT、T5、SciFive 等,通过实验检测不同方法的适用性和鲁棒性。结果表明,基于 transformers 的模型(如 PubMedBERT)在处理小型和不平衡的数据时表现较好。其中,在平衡数据上,PubMedBERT 模型的 F1 得分最高(0.92)。
Jan, 2022
提出了一种用于学习具有实体属性的知识图谱嵌入的模块化框架,其中模块可以对不同模态的属性数据进行编码,并且支持具有缺失属性的实体。在使用包含大约两百万三元组的生物医学 KG 进行训练和评估时,发现在给定低程度实体的情况下,与不考虑属性数据的基准方法相比,该方法在药物 - 蛋白质相互作用预测任务中的表现较好。
Jun, 2023
本研究提出了使用 BERT 模型和条件随机场层从临床记录中提取和分析生物医学知识的端到端方法,包括自然语言处理模型用于命名实体识别和关系提取等步骤,可以用于构建医学知识图谱并用于问题解答。实验结果表明,该方法对于 505 位真实患者的生物医学非结构化临床记录的命名实体识别和关系提取的准确率分别为 90.7% 和 88%。
Apr, 2023
这篇论文介绍了 SimpleGermKG,一种自动构建知识图谱的方法,该方法连接了生殖祖细胞基因和疾病。通过使用生物医学语料库上预训练的 BERT 模型 BioBERT,提取基因和疾病,并提出本体基于和规则基于算法对医学术语进行标准化和消歧。为了表示语义关系,采用了部分 - 整体关系方法将每个实体与其数据源连接,并以图形表示形式进行可视化。最后,讨论了知识图谱的应用、限制和未来对生殖细胞语料库的研究挑战,并展示了结果的图形可视化。
Sep, 2023
提出 KeBioLM 这一生物医学语言 pretrained language model,该模型明确利用了来自 UMLS UMLS knowledge bases 知识库的知识,取得了名词实体识别和关系提取的不错效果。
Apr, 2021
通过建立知识图谱,在建设领域超过 80,000 篇论文摘要上构建了超过 200,000 个高质量的关系和实体,用于展示各种实体之间的关系的自我开发可视化系统。
Nov, 2022
本文描述了如何构建一个特定领域的知识图谱,以帮助癌症生物标志物的发现和查询,并使用语义技术和信息抽取方法集成相关领域的知识和数据,提供交互式解释和问题回答。
Feb, 2023
基于知识图谱的论文搜索引擎 DiscoverPath 可以提供生物医学研究的高效文章检索和跨学科知识探索,通过提取术语和关系创建知识图谱,并提供查询建议和可视化界面,以增强用户体验。
Sep, 2023
我们提出了一个面向生物医学领域的异构知识图谱基准测试平台 Know2BIO,它从 30 个不同的数据源中整合数据,并捕捉了 11 个生物医学类别中的复杂关系。通过在 Know2BIO 上评估知识图谱表示模型,我们展示了其在生物医学领域中作为知识图谱表示学习基准测试的有效性。
Oct, 2023
本文介绍了 ProteinKG65,一个专门用于蛋白质科学的知识图谱,它基于基因本体论和 Uniprot 知识库,并整合了多种知识,主要旨在将基因本体论的知识应用于蛋白质功能及结构预测,文中还展示了 ProteinKG65 的潜在应用。
May, 2022