MedCalc-Bench: 评估医学计算中的大型语言模型

Jun, 2024

MedCalc-Bench: 评估医学计算中的大型语言模型

MedCalc-Bench: Evaluating Large Language Models for Medical Calculations

Nikhil Khandekar, Qiao Jin, Guangzhi Xiong, Soren Dunn, Serina S Applebaum...

TL;DR评估医学中的大型语言模型(LLMs)时，与计算和基于逻辑的推理相反，当前的基准测试主要集中在涉及领域知识和描述性推理的问答上。然而，在现实世界的情况下，医生经常使用遵循定量方程和基于规则推理范例的临床计算器作为基于证据的决策支持。为此，我们提出了MedCalc-Bench，这是一个首个针对评估LLMs在医学计算能力方面的数据集。MedCalc-Bench包含了来自55个不同医学计算任务的1000多个手动审核实例的评估集。每个MedCalc-Bench实例包括患者记录、请求计算特定医学数值的问题、基本真相答案和逐步说明显示如何获取答案。尽管我们的评估结果显示LLMs在这个领域具有潜力，但它们还没有在临床环境中足够有效。常见问题包括提取错误的实体、不使用正确的方程式或规则进行计算任务，或错误地执行计算的算术操作。我们希望我们的研究能够突出LLMs在医学环境中的定量知识和推理差距，促进未来改进LLMs以用于各种临床计算任务。

Abstract

As opposed to evaluating computation and logic-based reasoning, current bench2 marks for evaluating large language models (LLMs) in medicine are primarily focused on question-answering involving domain knowledge and descriptive rea4 soning. While such qualitative capabilities are vital