Jun, 2024
CliBench: 临床决策中大型语言模型在诊断、过程、实验室测试和处方方面的多方面评估
CliBench: Multifaceted Evaluation of Large Language Models in Clinical
Decisions on Diagnoses, Procedures, Lab Tests Orders and Prescriptions
TL;DR将人工智能(AI)与临床诊断过程中的大型语言模型(LLMs)整合,可以显著提高医疗保健的效率和可访问性。本研究通过引入CliBench——一个基于MIMIC IV数据集的新型基准测试,评估LLMs在临床诊断中的能力,覆盖了多种临床病例的诊断,并包括与临床有关的任务,如治疗程序识别、实验室检查和药物处方等。通过结构化输出本体,CliBench能够深入了解LLMs在不同临床任务上的能力,从而为LLM在医疗保健领域的未来发展提供有价值的见解。