公共 LLMs 是否可用于医疗状况的自我诊断?
通过评估 LLMs(GPT-4、Gemini 和 GPT-3.5)在诊断能力方面,本研究展示了它们如何显著提高医学诊断的准确性和效率,强调在应用 LLMs 于医疗和临床实践时需要更加关注患者隐私和遵守相关法规,以及研究人类偏见对 LLMs 任务的影响,为在复杂的医疗环境中应用人工智能提供新的可能性。
May, 2024
对大型语言模型在医疗保健行业的潜在价值进行了全面评估,发现 Google 的新型多模态模型 Gemini 在医学推理、幻觉检测和医学视觉问答任务中表现尚可,但在诊断准确性上低于 MedPaLM 2 和 GPT-4 等先进模型。分析结果显示 Gemini 对幻觉、过度自信和知识缺失高度敏感,需要谨慎部署。为提高性能,采用提示策略,并通过发布 Python 模块和建立医学领域 LLM 的排行榜促进未来研究与发展。
Feb, 2024
大语言模型在医疗保健领域逐渐变得越来越重要,它可作为一种潜在工具,帮助临床医生、研究人员和患者之间进行沟通。然而,对医学考试问题上的 LLMs 进行传统评估并不能反映真实患者和医生之间互动的复杂性,其中引入了患者自我诊断的情况。本研究通过修改美国医学考试中的多项选择题,将患者的自诊断报告纳入其中,提出了多种 LLMs。研究结果表明,当患者提出错误的偏见验证信息时,LLMs 的诊断准确性显著下降,自诊断存在较高的错误敏感性。
Sep, 2023
大型语言模型(LLMs)在各种自然语言处理任务中表现出令人惊讶的性能。最近,结合领域特定知识的医学 LLMs 在医疗咨询和诊断方面展现出卓越能力。本文系统地探讨了如何基于通用 LLMs 训练医学 LLMs,并提供了指导各种医学应用的 LLMs 发展的方法。
Jun, 2024
该研究提出了一种包括多步骤评估法的大型语言模型(LLM)评估范例,通过结构化的交互方式进行多模态 LLM 评估,并通过获取交互数据进行后续领域特定的分析,以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM,使用多模态多项选择题评估其在病理学领域的医学诊断准确性,结果表明其约有 84% 的正确诊断,同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于 GPT-4-Vision-Preview,还可应用于评估其他 LLMs 的准确性和实用性,以进一步优化其应用。
Jan, 2024
我们评估了在临床试验报告数据集上使用医学领域的热门开源和闭源大型语言模型的自然语言推理能力,并分析了它们在具有医学缩写和数量 - 定量推理要求的挑战性实例上的表现。Gemini,我们的领先大型语言模型,在测试集上获得了 0.748 的 F1 分数,在任务排行榜上位列第九。我们的工作是第一种在医学领域内全面检验大型语言模型的推理能力的工作。
May, 2024
通过使用人工智能的生成式大型语言模型,可以使其作为自主的循证医学的从业者,通过工具的使用与真实世界的医疗系统进行交互,并以符合指南的方式执行患者管理任务,这有可能通过进一步的改进来推动医疗的转型。
Jan, 2024
大型语言模型(LLMs),如 ChatGPT,因其卓越的人类语言理解和生成能力而受到广泛关注。因此,在医学领域应用 LLMs 以协助医师和患者护理成为人工智能和临床医学中一个有前景的研究方向。本调查旨在全面介绍 LLMs 在医学领域目前的进展、应用和挑战,回答以下问题:1)LLMs 是什么以及如何构建医学 LLMs?2)医学 LLMs 的下游性能如何?3)如何在真实临床实践中利用医学 LLMs?4)使用医学 LLMs 会面临哪些挑战?5)如何更好地构建和利用医学 LLMs?因此,本调查旨在深入探讨 LLMs 在医学领域的机遇和挑战,为构建实际和有效的医学 LLMs 提供有价值的资源。可以在此网址找到医学 LLMs 实用指南资源的定期更新列表。
Nov, 2023
探究专有和开源大型语言模型在患者试验匹配任务中的有效性,并证明在有限和合成数据集上进行微调后,开源模型与专有模型性能相当,从而为它们在实际医疗应用中的部署提供了巨大机会。
Dec, 2023
利用 Gemini 和 GPT-4V 模型,本研究尝试基于两种模态医学图像数据进行分类、解释和分析,并发现 Gemini 在分类任务上略优于 GPT-4V,而 GPT-4V 的回答主要是泛化的。该研究为多模态大型语言模型在视网膜眼底检查和肺部 X 射线图像等医学图像分析专项任务中的分类和解释提供了潜力,并识别了早期调查研究中的关键限制。
Jun, 2024