Oct, 2024
MedQA-CS:使用AI-SCE框架对大型语言模型临床技能的基准测试
MedQA-CS: Benchmarking Large Language Models Clinical Skills Using an
AI-SCE Framework
TL;DR本研究解决了现有基准无法全面评估大型语言模型在医疗健康领域的临床技能的问题。我们提出的MedQA-CS框架借鉴了医学教育中的客观结构化临床考试,提供了一种包括公开数据和专家注释的全面评估方式,评估结果表明MedQA-CS在临床技能评估上比传统的选择题基准更具挑战性。这项工作的潜在影响在于推动对临床能力评估更加全面的标准建立。