May, 2024

COGNET-MD,医学领域中大型语言模型基准的评估框架和数据集

TL;DR大型语言模型 (LLMs) 在医学诊断中具有辅助医生或模拟医生工作流程的能力,本研究提出了一种用于医学领域中 LLM 评估的认知网络评估工具包 (COGNET-MD),该工具包包含了一个评分框架以提高对 LLMs 解读医学文本的能力,并伴有一套多项选择题数据库,用于与相关医学专家合作构建,以匹配当前医学趋势并增强安全性、实用性和适用性。当前版本的数据库包括精神病学、牙科、肺病学、皮肤科和内分泌学等医学领域,后续将不断扩展增加其他医学领域。