多个大型语言模型的综合洞察提高诊断准确性

Feb, 2024

多个大型语言模型的综合洞察提高诊断准确性

Combining Insights From Multiple Large Language Models Improves Diagnostic Accuracy

Gioele Barabucci, Victor Shia, Eugene Chu, Benjamin Harack, Nathan Fu

TL;DR通过使用集体智能方法和 200 个真实病例的临床案例数据集，我们评估和比较了使用个别商业大型语言模型（OpenAI GPT-4、Google PaLM 2、Cohere Command、Meta Llama 2）提取的不同诊断与使用组合相同大型语言模型的回答合并后产生的不同诊断之间的准确性，结果发现聚合多个不同大型语言模型的回答能够更准确地产生不同诊断。

Abstract

Background: large language models (LLMs) such as OpenAI's GPT-4 or Google's PaLM 2 are proposed as viable diagnostic support tools or even spoken of as replacements for "curbside consults". However, even LLMs specifically trained on →

large language models diagnostic accuracy collective intelligence methods differential diagnoses medical topics

发现论文，激发创造

通过多智能体对话增强诊断准确性：利用大型语言模型减轻认知偏差

通过大型语言模型 (LLMs) 在多智能体框架中的运用，模拟临床决策过程并评估其改善诊断准确性的有效性，以应对临床决策中的认知偏差。

Jan, 2024

人工智能与人类集体生成的最准确的差异诊断

基于综合人机智能的混合智能系统在医疗诊断等复杂无结论领域的应用显示出了人类和大型语言模型的协同作用，以提高精确性。

Jun, 2024

评估基于 LLM 生成的医学图像和症状分析的多模态诊断

该研究提出了一种包括多步骤评估法的大型语言模型（LLM）评估范例，通过结构化的交互方式进行多模态 LLM 评估，并通过获取交互数据进行后续领域特定的分析，以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM，使用多模态多项选择题评估其在病理学领域的医学诊断准确性，结果表明其约有 84% 的正确诊断，同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于 GPT-4-Vision-Preview，还可应用于评估其他 LLMs 的准确性和实用性，以进一步优化其应用。

Jan, 2024

借助大型语言模型实现准确的鉴别诊断

本研究介绍了一种为诊断推理进行优化的大型语言模型 (LLM)，并评估其生成独立诊断推理 (DDx) 或为临床医生提供辅助的能力。结果显示，在挑战性真实医学案例中，使用 LLM 辅助的临床医生在 DDx 质量和全面性方面表现优于未使用该辅助工具的医生，证明 LLM 为 DDx 提供了潜力，有望改善医生在复杂病例中的诊断推理和准确性。

Nov, 2023

医学术语分类中的大型语言模型及响应与推理的意外不一致

本研究评估了 GPT-3.5、GPT-4、Falcon 和 LLaMA 2 等最先进的大型语言模型在从出院摘要中识别患有轻度认知障碍（MCI）的患者的能力，并检查模型响应与其推理不一致的情况。研究结果强调了提示工程的重要性和对 GPT-4 中观察到的意外推理 - 响应不一致性进一步探索的需求，突显了将大型语言模型应用于医疗诊断的潜力，前提是在方法论上取得进步以确保人工智能生成的输出准确性和临床连贯性，从而提高大型语言模型在医疗决策中的可信度。

Dec, 2023

数字诊断：大型语言模型在识别常见疾病症状中的潜力

通过评估 LLMs（GPT-4、Gemini 和 GPT-3.5）在诊断能力方面，本研究展示了它们如何显著提高医学诊断的准确性和效率，强调在应用 LLMs 于医疗和临床实践时需要更加关注患者隐私和遵守相关法规，以及研究人类偏见对 LLMs 任务的影响，为在复杂的医疗环境中应用人工智能提供新的可能性。

May, 2024

基于大型语言模型的系统回答实际临床问题

利用大型语言模型构建基于检索增强生成和创新研究的系统能为患者护理提供相关证据，提高医疗决策质量。

Jun, 2024

应对医疗语言模型中的认知偏差

这项研究开发了 BiasMedQA 作为一种新的基准测试方法，评估大型语言模型在医学任务中受认知偏差影响的程度，并发现 GPT-4 对偏差具有较强的韧性，而 Llama 2 70B-chat 和 PMC Llama 13B 则受偏差影响较大，这凸显了在医学语言模型开发中需致力于偏差缓解，以实现在医疗保健领域更安全、可靠的应用。

Feb, 2024

生成式大型语言模型与同伴患者对解读普通患者的实验室检测结果的回答质量比较：评估研究

利用大型语言模型 (LLMs) 为患者提供对实验室检测相关问题的相关、准确、有帮助和安全的回答的可行性进行评估，并通过采用增强方法来解决潜在问题。我们通过从 Yahoo! Answers 收集实验室测试问题和答案数据，并使用 LangChain 框架和 ChatGPT 网络门户为 53 个问题生成了来自 GPT-4、Meta LLaMA 2、MedAlpaca 和 ORCA_mini 四个 LLM 的回答。通过评估相似度和医学专家的人工评估，结果表明 GPT-4 的回答在相关性、准确性、有帮助性和安全性方面优于其他 LLMs 和人工回答，但偶尔也会出现对医学背景的缺乏解释、错误陈述和缺乏参考等问题。我们发现了提高 LLM 回答质量的多种方法。

Jan, 2024

将大型语言模型凝聚用于将患者匹配到临床试验

探究专有和开源大型语言模型在患者试验匹配任务中的有效性，并证明在有限和合成数据集上进行微调后，开源模型与专有模型性能相当，从而为它们在实际医疗应用中的部署提供了巨大机会。

Dec, 2023