医学术语分类中的大型语言模型及响应与推理的意外不一致

Dec, 2023

医学术语分类中的大型语言模型及响应与推理的意外不一致

Large Language Models in Medical Term Classification and Unexpected Misalignment Between Response and Reasoning

Xiaodan Zhang, Sandeep Vemulapalli, Nabasmita Talukdar, Sumyeong Ahn, Jiankun Wang...

TL;DR本研究评估了 GPT-3.5、GPT-4、Falcon 和 LLaMA 2 等最先进的大型语言模型在从出院摘要中识别患有轻度认知障碍（MCI）的患者的能力，并检查模型响应与其推理不一致的情况。研究结果强调了提示工程的重要性和对 GPT-4 中观察到的意外推理 - 响应不一致性进一步探索的需求，突显了将大型语言模型应用于医疗诊断的潜力，前提是在方法论上取得进步以确保人工智能生成的输出准确性和临床连贯性，从而提高大型语言模型在医疗决策中的可信度。

Abstract

This study assesses the ability of state-of-the-art large language models (LLMs) including GPT-3.5, GPT-4, Falcon, and LLaMA 2 to identify patients with mild cognitive impairment (MCI) from discharge summaries an

large language models mild cognitive impairment reasoning inconsistencies interpretability healthcare diagnostics

发现论文，激发创造

诊断推理提示揭示了在医学领域中大型语言模型可解释性的潜力

GPT4 可以通过使用诊断推理提示模拟临床医生的常见临床推理过程，而不会损失诊断准确性，因此它可以为医生提供评估 LLMs 是否可信赖用于患者护理的手段。新的提示方法有潜力揭示 LLMs 的黑盒子，将它们推向在医学中安全有效使用的一步。

Aug, 2023

大型语言模型是否能够对医学问题进行推理？

研究了 GPT-3.5 在实际世界中具有强大推理能力和专业领域知识的应用能力，使用了多项提示方法（CoT、零和少量训练以及检索增强），并在医学考试和阅读理解领域取得了人类水平表现。

Jul, 2022

评估 GPT-3.5 和 GPT-4 在支持医疗服务实际信息需求方面的作用

本文介绍了两个大型语言模型在医疗保健领域中的应用。在通过简单提示后，通过医师提交的问题来确定这两个模型是否可以以安全和一致的方式为信息需求服务。结果表明，虽然这两个模型能够提供安全和可信的响应，但往往不能满足给定问题的特定信息需求。

Apr, 2023

评估 ChatGPT 家族模型在生物医学推理和分类中的表现

研究了大型语言模型在生物医学任务中的性能，并与更简单的模型进行了比较，特别地，探讨了分类和因果关系检测任务。发现精细调整后的模型依然是最佳策略，而简单的词袋模型的表现与最复杂的大型语言模型的表现相当。

Apr, 2023

开源大型语言模型 GPT-4 和 Claude 2 的比较研究：肾脏病学中的多项选择测试

该研究调查了大型语言模型（LLMs）在内科专科多项选择测试能力方面的医学知识能力，与 GPT-4 和 Claude 2 相比，当前广泛使用的开源 LLMs 在零 - shot 推理能力方面表现不佳。

Aug, 2023

评估领先的大型语言模型在推理生物学问题中的潜力

该研究评估了领先的大型语言模型（LLMs），包括 GPT-4、GPT-3.5、PaLM2、Claude2 和 SenseNova 对概念生物学问题的回答能力。结果表明，GPT-4 在逻辑推理方面表现出色，并具备数据分析、假设生成和知识整合等能力，从而有望在生物学研究中发挥作用，但还需要进一步的发展和验证。

Nov, 2023

GPT-4 在医疗挑战问题上的能力

通过对 USMLE 和 MultiMedQA 基准数据集的全面评估，我们发现不需要专门的提示造型来激发 GPT-4，它的表现超过了 USMLE 的合格分数约 20 分，并表现优于早期的通用模型（GPT-3.5）以及专门针对医学知识进行细化调整的模型（Med-PaLM，Flan-PaLM540B 的提示调整版本）。

Mar, 2023

生成式大型语言模型与同伴患者对解读普通患者的实验室检测结果的回答质量比较：评估研究

利用大型语言模型 (LLMs) 为患者提供对实验室检测相关问题的相关、准确、有帮助和安全的回答的可行性进行评估，并通过采用增强方法来解决潜在问题。我们通过从 Yahoo! Answers 收集实验室测试问题和答案数据，并使用 LangChain 框架和 ChatGPT 网络门户为 53 个问题生成了来自 GPT-4、Meta LLaMA 2、MedAlpaca 和 ORCA_mini 四个 LLM 的回答。通过评估相似度和医学专家的人工评估，结果表明 GPT-4 的回答在相关性、准确性、有帮助性和安全性方面优于其他 LLMs 和人工回答，但偶尔也会出现对医学背景的缺乏解释、错误陈述和缺乏参考等问题。我们发现了提高 LLM 回答质量的多种方法。

Jan, 2024

评估基于 LLM 生成的医学图像和症状分析的多模态诊断

该研究提出了一种包括多步骤评估法的大型语言模型（LLM）评估范例，通过结构化的交互方式进行多模态 LLM 评估，并通过获取交互数据进行后续领域特定的分析，以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM，使用多模态多项选择题评估其在病理学领域的医学诊断准确性，结果表明其约有 84% 的正确诊断，同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于 GPT-4-Vision-Preview，还可应用于评估其他 LLMs 的准确性和实用性，以进一步优化其应用。

Jan, 2024

大型语言模型准备好应用于医疗保健了吗？临床语言理解的比较研究

本研究通过对临床语言理解任务的全面评估和引入一种新的提示策略 —— 自问自答提示（SQP），来提高大型语言模型 (GPT-3.5、GPT-4 和 Bard) 在医疗相关任务中的性能，同时还提供了有关挑战性关系抽取任务误差分布和潜在改进方法的有价值洞察。此项研究为之后的研究和开发医疗应用奠定了基础。

Apr, 2023