Jun, 2024

CliBench: 临床决策中大型语言模型在诊断、过程、实验室测试和处方方面的多方面评估

TL;DR将人工智能(AI)与临床诊断过程中的大型语言模型(LLMs)整合,可以显著提高医疗保健的效率和可访问性。本研究通过引入 CliBench—— 一个基于 MIMIC IV 数据集的新型基准测试,评估 LLMs 在临床诊断中的能力,覆盖了多种临床病例的诊断,并包括与临床有关的任务,如治疗程序识别、实验室检查和药物处方等。通过结构化输出本体,CliBench 能够深入了解 LLMs 在不同临床任务上的能力,从而为 LLM 在医疗保健领域的未来发展提供有价值的见解。