OpenBioLink: 大规模生物医学链接预测的基准评估框架
该研究提出了一个新颖的 benchmarking 框架 Dyport,用于评估生物医学假设生成系统。利用经过筛选的数据集,在真实条件下测试这些系统,增强了我们评估的相关性。我们将筛选数据库中的知识整合到动态图中,并伴随着一种量化发现重要性的方法。这不仅评估了假设的准确性,还评估了它们在生物医学研究中的潜在影响,这显著扩展了传统的链接预测基准。我们的 benchmarking 过程的适用性在应用于生物医学语义知识图上的几个链接预测系统上得到了证明。我们的灵活性 benchmarking 系统旨在广泛应用于假设生成质量验证,旨在扩大生物医学研究界的科学发现范围。Dyport 框架完全开源,所有代码和数据集都可以在此 https 的 URL 中获得。
Dec, 2023
生物医学实体链接(BEL)是将实体提及与知识库进行关联的任务,在生命科学文献的信息提取流程中起着重要作用。我们回顾了该领域的最新研究,并发现由于该任务在生物医学文本挖掘的现有基准中缺失,不同研究采用不同的实验设置,使得基于已发表数据的比较存在问题。此外,神经系统主要在与广泛覆盖的知识库 UMLS 相关的实例上进行测试,使得它们在与更专业的知识库,如基因或变体,相关的性能研究不足。因此,我们开发了一种名为 BELB 的生物医学实体链接基准,以统一的格式提供对与 7 个知识库链接的 11 个语料库的访问,并涵盖了基因、疾病、化学物质、物种、细胞系和变体等六种实体类型。BELB 大大减少了在多个语料库上测试 BEL 系统的预处理开销,为可重复实验提供了一个标准化的测试基准。利用 BELB,我们对六个基于规则的实体特定系统和三个利用预训练语言模型的最新神经方法进行了广泛评估。我们的结果显示出了复杂的情况,表明神经方法在不同实体类型上表现不一致,突出了进一步研究面向实体无关模型的需求。
Aug, 2023
我们提出了一个面向生物医学领域的异构知识图谱基准测试平台 Know2BIO,它从 30 个不同的数据源中整合数据,并捕捉了 11 个生物医学类别中的复杂关系。通过在 Know2BIO 上评估知识图谱表示模型,我们展示了其在生物医学领域中作为知识图谱表示学习基准测试的有效性。
Oct, 2023
利用大型语言模型自动从相关科学文献中提取知识,研究识别蛋白质相互作用、通路和基因调控关系的任务效果,并评估不同模型的性能,讨论了该方法的未来机遇和挑战。
Jul, 2023
研究了两类从知识图谱中丰富信息的方法:链接预测和实体对齐的评估,分析了现有评估措施的信息量,提出了评估的调整建议,并证明这有助于公平、可比和可解释的模型性能评估。
Feb, 2020
网络生物学中,基于网络结构表示异质基因组和分子实体之间的相互作用。本综述系统剖析了应用于静态和动态生物网络的局部、中心性和嵌入式链接预测方法的属性,并在疾病、基因、蛋白质、RNA、微生物组、药物和神经元之间的预测链接方面考察了当前链接预测度量的应用。我们对已建立的生物网络数据集进行了全面的性能评估,展示了标准链接预测模型的实际应用。此外,我们比较了各模型之间预测趋势的相似性以及对于有效链接预测所起作用的特定网络属性,最后强调了链接预测在解决生物系统中普遍存在的噪音、偏见、数据稀疏性和可解释性等难题方面的作用。我们通过探索未来链接预测模型的必要特征,以推进对控制生物系统的复杂相互作用的理解来总结这篇综述。
Dec, 2023
我们介绍了 BigBIO 项目,这是一个包含 126 个以上生物医学 NLP 数据集的社区库,可用于训练和评估语言模型,其数据集的元数据和编程访问支持元数据集合的构建,并且支持 End-to-End 的零样本任务。
Jun, 2022
本研究介绍了一个名为 DBLPLink 的网络应用程序,它在 DBLP 学术知识图上执行实体链接。DBLPLink 使用文本到文本的预训练语言模型(如 T5)从输入文本问题中生成实体标签范围。实体候选者从数据库中根据标签获取,并且实体重排器根据实体嵌入(如 TransE、DistMult 和 ComplEx)对它们进行排序。结果显示出来,用户可以在 T5-small、T5-base 和不同的 KG 嵌入之间进行比较和对比。该演示可在此 https 网址访问。
Sep, 2023
本文介绍了 Biomedical Language Understanding Evaluation (BLUE) benchmark,该基准旨在促进预训练语言表示在生物医学领域的发展研究。我们评估了多个基于 BERT 和 ELMo 的基线,并发现在 PubMed 文摘和 MIMIC-III 临床笔记上预训练的 BERT 模型取得了最佳结果。
Jun, 2019
本文研究了链接预测领域中评估方法的挑战,提出了新的方法以替代目前方法,提供准确可靠的预测结果,并建议使用精确度 - 召回率曲线和相关面积来解决链接预测分类问题中存在的极端不平衡挑战。
May, 2015