多个大型语言模型的综合洞察提高诊断准确性
通过大型语言模型 (LLMs) 在多智能体框架中的运用,模拟临床决策过程并评估其改善诊断准确性的有效性,以应对临床决策中的认知偏差。
Jan, 2024
该研究提出了一种包括多步骤评估法的大型语言模型(LLM)评估范例,通过结构化的交互方式进行多模态 LLM 评估,并通过获取交互数据进行后续领域特定的分析,以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM,使用多模态多项选择题评估其在病理学领域的医学诊断准确性,结果表明其约有 84% 的正确诊断,同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于 GPT-4-Vision-Preview,还可应用于评估其他 LLMs 的准确性和实用性,以进一步优化其应用。
Jan, 2024
本研究介绍了一种为诊断推理进行优化的大型语言模型 (LLM),并评估其生成独立诊断推理 (DDx) 或为临床医生提供辅助的能力。结果显示,在挑战性真实医学案例中,使用 LLM 辅助的临床医生在 DDx 质量和全面性方面表现优于未使用该辅助工具的医生,证明 LLM 为 DDx 提供了潜力,有望改善医生在复杂病例中的诊断推理和准确性。
Nov, 2023
本研究评估了 GPT-3.5、GPT-4、Falcon 和 LLaMA 2 等最先进的大型语言模型在从出院摘要中识别患有轻度认知障碍(MCI)的患者的能力,并检查模型响应与其推理不一致的情况。研究结果强调了提示工程的重要性和对 GPT-4 中观察到的意外推理 - 响应不一致性进一步探索的需求,突显了将大型语言模型应用于医疗诊断的潜力,前提是在方法论上取得进步以确保人工智能生成的输出准确性和临床连贯性,从而提高大型语言模型在医疗决策中的可信度。
Dec, 2023
通过评估 LLMs(GPT-4、Gemini 和 GPT-3.5)在诊断能力方面,本研究展示了它们如何显著提高医学诊断的准确性和效率,强调在应用 LLMs 于医疗和临床实践时需要更加关注患者隐私和遵守相关法规,以及研究人类偏见对 LLMs 任务的影响,为在复杂的医疗环境中应用人工智能提供新的可能性。
May, 2024
这项研究开发了 BiasMedQA 作为一种新的基准测试方法,评估大型语言模型在医学任务中受认知偏差影响的程度,并发现 GPT-4 对偏差具有较强的韧性,而 Llama 2 70B-chat 和 PMC Llama 13B 则受偏差影响较大,这凸显了在医学语言模型开发中需致力于偏差缓解,以实现在医疗保健领域更安全、可靠的应用。
Feb, 2024
利用大型语言模型 (LLMs) 为患者提供对实验室检测相关问题的相关、准确、有帮助和安全的回答的可行性进行评估,并通过采用增强方法来解决潜在问题。我们通过从 Yahoo! Answers 收集实验室测试问题和答案数据,并使用 LangChain 框架和 ChatGPT 网络门户为 53 个问题生成了来自 GPT-4、Meta LLaMA 2、MedAlpaca 和 ORCA_mini 四个 LLM 的回答。通过评估相似度和医学专家的人工评估,结果表明 GPT-4 的回答在相关性、准确性、有帮助性和安全性方面优于其他 LLMs 和人工回答,但偶尔也会出现对医学背景的缺乏解释、错误陈述和缺乏参考等问题。我们发现了提高 LLM 回答质量的多种方法。
Jan, 2024
探究专有和开源大型语言模型在患者试验匹配任务中的有效性,并证明在有限和合成数据集上进行微调后,开源模型与专有模型性能相当,从而为它们在实际医疗应用中的部署提供了巨大机会。
Dec, 2023