BioKGBench：生物医学科学 AI 代理的知识图检测基准

Jun, 2024

BioKGBench：生物医学科学 AI 代理的知识图检测基准

BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science

Xinna Lin, Siqi Ma, Junjie Shan, Xiaojing Zhang, Shell Xu Hu...

TL;DR在追求生物医学科学人工智能领域中，一种常见方法是构建由大型语言模型驱动的副驾驶代理，然而如何从 AI 科学家的角度精确评估这些代理系统目前尚未被充分探索。我们通过模仿科学家最重要的能力之一，即理解文献，提出了一种新的评估基准 BioKGBench，将其与传统的评估基准进行对比，并引入了一个新的代理任务 KGCheck，通过知识图问答和领域相关的检索增强生成技术来识别现有大规模知识图数据库中的事实错误。我们的研究发现当前最先进的代理系统在我们的基准测试中要么失败，要么表现低劣。我们提出了一个简单而有效的基准系统 BKGAgent，并在常用的知识图上发现了 90 多个事实错误，从而展示了我们方法的效果。

Abstract

Pursuing artificial intelligence for biomedical science, a.k.a. AI Scientist, draws increasing attention, where one common approach is to build a copilot agent driven by →

artificial intelligence biomedical science large language models evaluation benchmark knowledge graph

发现论文，激发创造

通过 Amazon Alexa 在生物知识图谱上进行问答

本文介绍了如何使用 Amazon Alexa 语音界面对知识图谱进行问答。以包含 113 万个基因 - 疾病关联的 DisgeNET KG 为例，研究表明 Alexa 可以帮助从大规模知识库中查找有关某些生物实体的信息。

Oct, 2022

从大型语言模型到知识图谱：癌症生物标志物发现

开发了一个基于领域知识图谱和语义推理的癌症特定生物标志物发现和交互式问答系统，使用生物医学数据、领域本体论、信息提取方法以及大型语言模型进行知识图谱的构建和更新。

Oct, 2023

Know2BIO: 演进中的生物医学知识图谱全面双视角基准

我们提出了一个面向生物医学领域的异构知识图谱基准测试平台 Know2BIO，它从 30 个不同的数据源中整合数据，并捕捉了 11 个生物医学类别中的复杂关系。通过在 Know2BIO 上评估知识图谱表示模型，我们展示了其在生物医学领域中作为知识图谱表示学习基准测试的有效性。

Oct, 2023

Text2KGBench：基于本体驱动的文本知识图谱生成基准

该研究论文介绍了 Text2KGBench 这个基准评估工具，可以评估语言模型的能力，从自然语言文本中生成知识图谱，并根据本体论从文本中提取事实。研究还提供了基准模型的结果和显示了使用语义网和自然语言处理技术，可以进一步提高模型性能的潜力。

Aug, 2023

KG-Rank: 基于知识图谱和排序技术增强医学问答的大型语言模型

本研究开发了一个增强的 LLM 框架 KG-Rank，利用医学知识图谱和排名技术，旨在改善医学领域中的自由文本问答。评估结果显示，KG-Rank 在 ROUGE-L 得分上取得了超过 18% 的改进，证明了 KG-Rank 的有效性和潜力。

Mar, 2024

使用知识图谱嵌入和语言模型进行生物医学多跳问答

这篇研究论文探讨了如何使用自然语言问答，相结合的语言模型和 KG 嵌入来回答生物学家们所提出的一系列自由形式的问题，其 KG 数据集来源于 Hetionet，并利用该数据集创建一个多跳生物医学问答数据集以测试多跳生物医学问答系统。

Nov, 2022

K-QA：实际医疗问答基准

通过构建 K-QA 数据集，使用自然语言处理模型评估，在临床环境中确保大型语言模型提供的回答的准确性至关重要。

Jan, 2024

癌症生物标志物发现的生物医学知识图谱

本文描述了如何构建一个特定领域的知识图谱，以帮助癌症生物标志物的发现和查询，并使用语义技术和信息抽取方法集成相关领域的知识和数据，提供交互式解释和问题回答。

Feb, 2023

评估大型语言模型作为人工智能研究代理 agent

我们提出了一种基于 LLM 的研究代理的研究，该代理可以在机器学习工程问题中执行实验循环，并且我们开发了 MLAgentBench 来评估这些代理的性能与效率。

Oct, 2023

大型语言模型的生物医学知识图增强提示生成

提出了一种融合知识图谱和大型语言模型的框架，通过优化方式，增强了通用型语言模型适应处理领域特定问题的能力。

Nov, 2023