借助大型语言模型实现准确的鉴别诊断

Nov, 2023

借助大型语言模型实现准确的鉴别诊断

Towards Accurate Differential Diagnosis with Large Language Models

Daniel McDuff, Mike Schaekermann, Tao Tu, Anil Palepu, Amy Wang...

TL;DR本研究介绍了一种为诊断推理进行优化的大型语言模型 (LLM)，并评估其生成独立诊断推理 (DDx) 或为临床医生提供辅助的能力。结果显示，在挑战性真实医学案例中，使用 LLM 辅助的临床医生在 DDx 质量和全面性方面表现优于未使用该辅助工具的医生，证明 LLM 为 DDx 提供了潜力，有望改善医生在复杂病例中的诊断推理和准确性。

Abstract

An accurate differential diagnosis (DDx) is a cornerstone of medical care, often reached through an iterative process of interpretation that combines clinical history, physical examination, investigations and procedures. Interactive interfaces powered by →

differential diagnosis diagnostic reasoning large language models assistance clinicians

发现论文，激发创造

解读诊断：大型语言模型解释如何影响临床决策

本研究探讨了大型语言模型在生成患者病情诊断解释方面的可靠性和有效性，实验证明大型语言模型生成的解释显著提高了医生对给定诊断的一致性，同时揭示了大型语言模型输出的潜在错误，在医疗保健领域中的潜力和挑战得到了强调，强调了在整合和评估过程中需要谨慎以确保患者安全和优化的临床效用。

Oct, 2023

语言模型在医疗应用中容易受到患者错误自我诊断的影响

大语言模型在医疗保健领域逐渐变得越来越重要，它可作为一种潜在工具，帮助临床医生、研究人员和患者之间进行沟通。然而，对医学考试问题上的 LLMs 进行传统评估并不能反映真实患者和医生之间互动的复杂性，其中引入了患者自我诊断的情况。本研究通过修改美国医学考试中的多项选择题，将患者的自诊断报告纳入其中，提出了多种 LLMs。研究结果表明，当患者提出错误的偏见验证信息时，LLMs 的诊断准确性显著下降，自诊断存在较高的错误敏感性。

Sep, 2023

多个大型语言模型的综合洞察提高诊断准确性

通过使用集体智能方法和 200 个真实病例的临床案例数据集，我们评估和比较了使用个别商业大型语言模型（OpenAI GPT-4、Google PaLM 2、Cohere Command、Meta Llama 2）提取的不同诊断与使用组合相同大型语言模型的回答合并后产生的不同诊断之间的准确性，结果发现聚合多个不同大型语言模型的回答能够更准确地产生不同诊断。

Feb, 2024

CliBench: 临床决策中大型语言模型在诊断、过程、实验室测试和处方方面的多方面评估

将人工智能（AI）与临床诊断过程中的大型语言模型（LLMs）整合，可以显著提高医疗保健的效率和可访问性。本研究通过引入 CliBench—— 一个基于 MIMIC IV 数据集的新型基准测试，评估 LLMs 在临床诊断中的能力，覆盖了多种临床病例的诊断，并包括与临床有关的任务，如治疗程序识别、实验室检查和药物处方等。通过结构化输出本体，CliBench 能够深入了解 LLMs 在不同临床任务上的能力，从而为 LLM 在医疗保健领域的未来发展提供有价值的见解。

Jun, 2024

LLM-Mini-CEX: 大型语言模型的自动评估用于诊断对话

为了提高诊断效率，增强医疗诊断的技术潜力，我们建立了一种评估标准 (LLM-specific Mini-CEX)，通过自动对话评估与 ChatGPT 的交互并替代人工评估，可以有效评估医疗诊断对话和比较不同 LLMs 之间的质量。

Aug, 2023

人工智能与人类集体生成的最准确的差异诊断

基于综合人机智能的混合智能系统在医疗诊断等复杂无结论领域的应用显示出了人类和大型语言模型的协同作用，以提高精确性。

Jun, 2024

评估基于 LLM 生成的医学图像和症状分析的多模态诊断

该研究提出了一种包括多步骤评估法的大型语言模型（LLM）评估范例，通过结构化的交互方式进行多模态 LLM 评估，并通过获取交互数据进行后续领域特定的分析，以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM，使用多模态多项选择题评估其在病理学领域的医学诊断准确性，结果表明其约有 84% 的正确诊断，同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于 GPT-4-Vision-Preview，还可应用于评估其他 LLMs 的准确性和实用性，以进一步优化其应用。

Jan, 2024

通过多智能体对话增强诊断准确性：利用大型语言模型减轻认知偏差

通过大型语言模型 (LLMs) 在多智能体框架中的运用，模拟临床决策过程并评估其改善诊断准确性的有效性，以应对临床决策中的认知偏差。

Jan, 2024

重新定义大型语言模型在数字健康界面中的应用

数字卫生工具与大型语言模型（LLMs）结合可在临床环境中提供新颖的接口，增强数字医疗工具的实用性和实际影响，解决了使用 LLMs 时出现的问题，如幻觉，从而提高心血管疾病和糖尿病风险预测的效果。

Oct, 2023

朝着可解释的风险预测减少诊断误差

使用 LLMs 方法识别患者电子健康记录中表明特定诊断风险增加或减少的证据，以提高证据获取并减少诊断错误。通过神经附加模型在临床医生不确定时点进行预测，具有个体化的风险估计，旨在减少诊断延误和因不完整鉴别引起的错误。使用 LLMs 推断细粒度的过去真实诊断标签，确保输入文本在自信诊断之前。通过模型学习的相关性，从初始证据集中筛选出更精确的证据，通过模拟临床医生在预定义鉴别诊断列表中选择来详细评估我们方法的实用性。

Feb, 2024