Jun, 2024

BioKGBench:生物医学科学 AI 代理的知识图检测基准

TL;DR在追求生物医学科学人工智能领域中,一种常见方法是构建由大型语言模型驱动的副驾驶代理,然而如何从 AI 科学家的角度精确评估这些代理系统目前尚未被充分探索。我们通过模仿科学家最重要的能力之一,即理解文献,提出了一种新的评估基准 BioKGBench,将其与传统的评估基准进行对比,并引入了一个新的代理任务 KGCheck,通过知识图问答和领域相关的检索增强生成技术来识别现有大规模知识图数据库中的事实错误。我们的研究发现当前最先进的代理系统在我们的基准测试中要么失败,要么表现低劣。我们提出了一个简单而有效的基准系统 BKGAgent,并在常用的知识图上发现了 90 多个事实错误,从而展示了我们方法的效果。