借助大型语言模型实现准确的鉴别诊断
本研究探讨了大型语言模型在生成患者病情诊断解释方面的可靠性和有效性,实验证明大型语言模型生成的解释显著提高了医生对给定诊断的一致性,同时揭示了大型语言模型输出的潜在错误,在医疗保健领域中的潜力和挑战得到了强调,强调了在整合和评估过程中需要谨慎以确保患者安全和优化的临床效用。
Oct, 2023
大语言模型在医疗保健领域逐渐变得越来越重要,它可作为一种潜在工具,帮助临床医生、研究人员和患者之间进行沟通。然而,对医学考试问题上的 LLMs 进行传统评估并不能反映真实患者和医生之间互动的复杂性,其中引入了患者自我诊断的情况。本研究通过修改美国医学考试中的多项选择题,将患者的自诊断报告纳入其中,提出了多种 LLMs。研究结果表明,当患者提出错误的偏见验证信息时,LLMs 的诊断准确性显著下降,自诊断存在较高的错误敏感性。
Sep, 2023
通过使用集体智能方法和 200 个真实病例的临床案例数据集,我们评估和比较了使用个别商业大型语言模型(OpenAI GPT-4、Google PaLM 2、Cohere Command、Meta Llama 2)提取的不同诊断与使用组合相同大型语言模型的回答合并后产生的不同诊断之间的准确性,结果发现聚合多个不同大型语言模型的回答能够更准确地产生不同诊断。
Feb, 2024
将人工智能(AI)与临床诊断过程中的大型语言模型(LLMs)整合,可以显著提高医疗保健的效率和可访问性。本研究通过引入 CliBench—— 一个基于 MIMIC IV 数据集的新型基准测试,评估 LLMs 在临床诊断中的能力,覆盖了多种临床病例的诊断,并包括与临床有关的任务,如治疗程序识别、实验室检查和药物处方等。通过结构化输出本体,CliBench 能够深入了解 LLMs 在不同临床任务上的能力,从而为 LLM 在医疗保健领域的未来发展提供有价值的见解。
Jun, 2024
为了提高诊断效率,增强医疗诊断的技术潜力,我们建立了一种评估标准 (LLM-specific Mini-CEX),通过自动对话评估与 ChatGPT 的交互并替代人工评估,可以有效评估医疗诊断对话和比较不同 LLMs 之间的质量。
Aug, 2023
该研究提出了一种包括多步骤评估法的大型语言模型(LLM)评估范例,通过结构化的交互方式进行多模态 LLM 评估,并通过获取交互数据进行后续领域特定的分析,以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM,使用多模态多项选择题评估其在病理学领域的医学诊断准确性,结果表明其约有 84% 的正确诊断,同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于 GPT-4-Vision-Preview,还可应用于评估其他 LLMs 的准确性和实用性,以进一步优化其应用。
Jan, 2024
通过大型语言模型 (LLMs) 在多智能体框架中的运用,模拟临床决策过程并评估其改善诊断准确性的有效性,以应对临床决策中的认知偏差。
Jan, 2024
数字卫生工具与大型语言模型(LLMs)结合可在临床环境中提供新颖的接口,增强数字医疗工具的实用性和实际影响,解决了使用 LLMs 时出现的问题,如幻觉,从而提高心血管疾病和糖尿病风险预测的效果。
Oct, 2023
使用 LLMs 方法识别患者电子健康记录中表明特定诊断风险增加或减少的证据,以提高证据获取并减少诊断错误。通过神经附加模型在临床医生不确定时点进行预测,具有个体化的风险估计,旨在减少诊断延误和因不完整鉴别引起的错误。使用 LLMs 推断细粒度的过去真实诊断标签,确保输入文本在自信诊断之前。通过模型学习的相关性,从初始证据集中筛选出更精确的证据,通过模拟临床医生在预定义鉴别诊断列表中选择来详细评估我们方法的实用性。
Feb, 2024