DiReCT：通过大型语言模型进行临床笔记的诊断推理

Aug, 2024

DiReCT：通过大型语言模型进行临床笔记的诊断推理

DiReCT: Diagnostic Reasoning for Clinical Notes via Large Language Models

Bowen Wang, Jiuyang Chang, Yiming Qian, Guoxin Chen, Junhao Chen...

TL;DR本研究针对大型语言模型在复杂临床任务中的可解释性不足问题，提出了诊断推理数据集DiReCT，用于评估LLMs的推理能力和可解释性。该数据集包含511个临床笔记，由医生仔细标注，展现从观察到最终诊断的推理过程。研究发现，现有LLMs与人类医生在推理能力上存在显著差距，显示出在实际临床场景中需要更有效的推理模型。

Abstract

Large Language Models (LLMs) have recently showcased remarkable capabilities, spanning a wide range of tasks and applications, including those in the medical domain. Models like GPT-4 excel in medical question answering but may face challenges in the lack of →

发现论文，激发创造

DR.BENCH：临床自然语言处理的诊断推理基准

本研究介绍了一种新的基准测试套件，称为DR.BENCH，旨在开发和评估具有临床诊断推理能力的cNLP模型，这是第一个被设计为自然语言生成框架以评估预训练语言模型的临床任务套件。

Sep, 2022

诊断推理提示揭示了在医学领域中大型语言模型可解释性的潜力

GPT4可以通过使用诊断推理提示模拟临床医生的常见临床推理过程，而不会损失诊断准确性，因此它可以为医生提供评估LLMs是否可信赖用于患者护理的手段。新的提示方法有潜力揭示LLMs的黑盒子，将它们推向在医学中安全有效使用的一步。

Aug, 2023

将医学知识图谱结合到大型语言模型中用于诊断预测

通过结合医学知识图谱和新颖的图模型Dr.Knows，我们提出一种创新的方法来提高大型语言模型在自动诊断生成领域的能力，从而消除预训练的需要，提高自动诊断生成的准确性。

Aug, 2023

解读诊断：大型语言模型解释如何影响临床决策

本研究探讨了大型语言模型在生成患者病情诊断解释方面的可靠性和有效性，实验证明大型语言模型生成的解释显著提高了医生对给定诊断的一致性，同时揭示了大型语言模型输出的潜在错误，在医疗保健领域中的潜力和挑战得到了强调，强调了在整合和评估过程中需要谨慎以确保患者安全和优化的临床效用。

Oct, 2023

借助大型语言模型实现准确的鉴别诊断

本研究介绍了一种为诊断推理进行优化的大型语言模型 (LLM)，并评估其生成独立诊断推理 (DDx) 或为临床医生提供辅助的能力。结果显示，在挑战性真实医学案例中，使用 LLM 辅助的临床医生在 DDx 质量和全面性方面表现优于未使用该辅助工具的医生，证明 LLM 为 DDx 提供了潜力，有望改善医生在复杂病例中的诊断推理和准确性。

Nov, 2023

大型语言模型是临床推理器:具备推理意识的诊断框架和提示生成的合理化

借助基于提示的学习，通过“推理感知”的诊断框架实现了对临床推理进行理性化，并能够在时间和劳动资源上具有高效性，从而实现了对疾病诊断的临床推理。

Dec, 2023

大型通用语言模型在评估从成人重症监护电子病历记录中提取的语义概念上的应用评估

通过医生评注和认定的方法，我们研究了三种通用大型语言模型（LLMs）在理解和处理真实世界临床笔记中的性能，并发现GPT-4整体表现优于其他LLMs。此外，我们开发了一个全面的定性性能评估框架，旨在验证LLMs在处理复杂医学数据方面的能力，并为将来在专门领域的LLM评估建立基准。

Jan, 2024

SemEval-2024任务2上的D-NLP：评估大型语言模型的临床推理能力

我们评估了在临床试验报告数据集上使用医学领域的热门开源和闭源大型语言模型的自然语言推理能力，并分析了它们在具有医学缩写和数量-定量推理要求的挑战性实例上的表现。Gemini，我们的领先大型语言模型，在测试集上获得了0.748的F1分数，在任务排行榜上位列第九。我们的工作是第一种在医学领域内全面检验大型语言模型的推理能力的工作。

May, 2024

大型语言模型在数值和语义医学知识方面的性能表现：基于循证问题与答案的基准评估

临床问题解决需要处理语义医学知识，如疾病描述和诊断测试的数值医学知识进行循证决策。因此，我们评估了大型语言模型（LLMs）在数值和语义问题类型上的表现，并将其与人类进行比较。研究发现，LLMs在语义问题上的表现优于数值问题，在不同的医学方面存在差距，仍然不及人类，因此应该谨慎对待它们的医疗建议。

Jun, 2024

MedCalc-Bench: 评估医学计算中的大型语言模型

评估医学中的大型语言模型(LLMs)时，与计算和基于逻辑的推理相反，当前的基准测试主要集中在涉及领域知识和描述性推理的问答上。然而，在现实世界的情况下，医生经常使用遵循定量方程和基于规则推理范例的临床计算器作为基于证据的决策支持。为此，我们提出了MedCalc-Bench，这是一个首个针对评估LLMs在医学计算能力方面的数据集。MedCalc-Bench包含了来自55个不同医学计算任务的1000多个手动审核实例的评估集。每个MedCalc-Bench实例包括患者记录、请求计算特定医学数值的问题、基本真相答案和逐步说明显示如何获取答案。尽管我们的评估结果显示LLMs在这个领域具有潜力，但它们还没有在临床环境中足够有效。常见问题包括提取错误的实体、不使用正确的方程式或规则进行计算任务，或错误地执行计算的算术操作。我们希望我们的研究能够突出LLMs在医学环境中的定量知识和推理差距，促进未来改进LLMs以用于各种临床计算任务。

Jun, 2024