Aug, 2024

DiReCT:通过大型语言模型进行临床笔记的诊断推理

TL;DR本研究针对大型语言模型在复杂临床任务中的可解释性不足问题,提出了诊断推理数据集DiReCT,用于评估LLMs的推理能力和可解释性。该数据集包含511个临床笔记,由医生仔细标注,展现从观察到最终诊断的推理过程。研究发现,现有LLMs与人类医生在推理能力上存在显著差距,显示出在实际临床场景中需要更有效的推理模型。