超越准确性：探究 GPT-4 对 USMLE 问题的错误类型

SIGIRApr, 2024

超越准确性：探究 GPT-4 对 USMLE 问题的错误类型

Beyond Accuracy: Investigating Error Types in GPT-4 Responses to USMLE Questions

Soumyadeep Roy, Aparup Khatua, Fatemeh Ghoochani, Uwe Hadler, Wolfgang Nejdl...

TL;DRGPT-4 在医疗问答任务中表现出高准确性，但仍存在约 14% 的错误。因此，我们引入了一种与医学学生合作得出的新的领域特定错误分类系统。我们的 GPT-4 USMLE Error（G4UE）数据集包含 4153 个 GPT-4 正确回答和 919 个不正确回答的美国医学执照考试（USMLE）问题。这些回答较长（平均 258 个单词），包含了 GPT-4 解释所选选项的详细说明。通过大规模的注释研究和医学专家的参与，我们对其中 300 个不正确的数据点进行了细致的分类注释，以确定错误背后的原因。我们的注释数据集中，相当一部分 GPT-4 的不正确回答被注释为 “GPT-4 合理回答”，这揭示了在受过训练的医学专业人士中，辨别可能导致错误选项的解释所面临的挑战。我们还提供了使用 SemRep 工具提取的医学概念和医学语义预测，这将有助于评估语言模型对复杂医学问题的回答能力。我们将这些资源提供在指定的网址。

Abstract

gpt-4 demonstrates high accuracy in medical qa tasks, leading with an accuracy of 86.70%, followed by Med-PaLM 2 at 86.50%. However, around 14% of errors remain. Additionally, current works use →

gpt-4 medical qa tasks error taxonomy g4ue dataset reasoning process

发现论文，激发创造

GPT-4 在医疗挑战问题上的能力

通过对 USMLE 和 MultiMedQA 基准数据集的全面评估，我们发现不需要专门的提示造型来激发 GPT-4，它的表现超过了 USMLE 的合格分数约 20 分，并表现优于早期的通用模型（GPT-3.5）以及专门针对医学知识进行细化调整的模型（Med-PaLM，Flan-PaLM540B 的提示调整版本）。

Mar, 2023

医学术语分类中的大型语言模型及响应与推理的意外不一致

本研究评估了 GPT-3.5、GPT-4、Falcon 和 LLaMA 2 等最先进的大型语言模型在从出院摘要中识别患有轻度认知障碍（MCI）的患者的能力，并检查模型响应与其推理不一致的情况。研究结果强调了提示工程的重要性和对 GPT-4 中观察到的意外推理 - 响应不一致性进一步探索的需求，突显了将大型语言模型应用于医疗诊断的潜力，前提是在方法论上取得进步以确保人工智能生成的输出准确性和临床连贯性，从而提高大型语言模型在医疗决策中的可信度。

Dec, 2023

大型语言模型是否能够对医学问题进行推理？

研究了 GPT-3.5 在实际世界中具有强大推理能力和专业领域知识的应用能力，使用了多项提示方法（CoT、零和少量训练以及检索增强），并在医学考试和阅读理解领域取得了人类水平表现。

Jul, 2022

GPT-4 视觉在医学中的专家级准确性背后的隐藏缺陷

通过对 Generative Pre-trained Transformer 4 with Vision (GPT-4V) 在图像理解、医学知识回忆和多模态推理等方面综合分析，本研究发现 GPT-4V 在多项选择准确性方面超过人类医生（88.0% vs. 77.0%，p=0.034），且在诊断错误的情况下准确率超过 80%。然而，我们还发现，GPT-4V 在作出正确选择的情况下，其解释经常存在缺陷（27.3%），尤其在图像理解方面（21.6%）。尽管 GPT-4V 在多项选择问题上准确率较高，但我们的发现强调了在将这类模型整合到临床工作流程之前进一步深入评估其解释的必要性。

Jan, 2024

如何做到对？使用 GPT 重述错误学员回答

通过使用 GPT-4 模型，我们的研究建立一个解释性反馈系统，用于训练初级导师。研究结果表明，该模型有效地识别出三个训练课程中正确 / 错误的学员反馈，并将错误反馈转化为期望的反馈，其性能达到与人类专家相当的水平。

May, 2024

生成式大型语言模型与同伴患者对解读普通患者的实验室检测结果的回答质量比较：评估研究

利用大型语言模型 (LLMs) 为患者提供对实验室检测相关问题的相关、准确、有帮助和安全的回答的可行性进行评估，并通过采用增强方法来解决潜在问题。我们通过从 Yahoo! Answers 收集实验室测试问题和答案数据，并使用 LangChain 框架和 ChatGPT 网络门户为 53 个问题生成了来自 GPT-4、Meta LLaMA 2、MedAlpaca 和 ORCA_mini 四个 LLM 的回答。通过评估相似度和医学专家的人工评估，结果表明 GPT-4 的回答在相关性、准确性、有帮助性和安全性方面优于其他 LLMs 和人工回答，但偶尔也会出现对医学背景的缺乏解释、错误陈述和缺乏参考等问题。我们发现了提高 LLM 回答质量的多种方法。

Jan, 2024

学生成为大师：匹配 GPT3 进行科学事实错误校正

本文介绍了一个声明校正系统，该系统不需要验证器，并采用了 LLMs 提示和声明感知解码程序进行培训来创建可用于完全监督培训和正则化的丰富注释数据集，在科学事实数据集上可实现 94％纠正准确率。

May, 2023

评估 GPT-3.5 和 GPT-4 在支持医疗服务实际信息需求方面的作用

本文介绍了两个大型语言模型在医疗保健领域中的应用。在通过简单提示后，通过医师提交的问题来确定这两个模型是否可以以安全和一致的方式为信息需求服务。结果表明，虽然这两个模型能够提供安全和可信的响应，但往往不能满足给定问题的特定信息需求。

Apr, 2023

MEDIQA-CORR 2024 上的爱丁堡临床自然语言处理：利用提示指导大型语言模型

评估大型语言模型在医疗错误识别和修正方面的能力，提出了多种提示策略来显著提高模型的修正能力，并讨论了错误句子位置、提示角色和选项位置对模型准确性的影响。该研究表明，尽管具有潜力，但是否准备好将大型语言模型应用于真实临床环境仍然需要进一步研究。

May, 2024

GPT-4 在基于 USMLE 的病例研究中的评估

本研究探讨了 GPT-4 在医疗应用中的性能评估，使用简单的提示技术从美国医学执照考试问卷中提取问题作为提示，任务是在提问前和提问后评估它的置信度得分。分为有反馈和无反馈两组问题进行分类，实验结果表明反馈会影响相对置信度但并不一致地增加或减少。这项研究对于 AI 可靠性的讨论具有重要意义，特别是在医疗领域中的 LLM 类模型（如 GPT-4），为优化反馈机制以提升 AI 辅助医学教育和决策支持提供了有价值的见解。

Feb, 2024